NVIDIA GB300 NVL72: 2,5 млн токенов/с и 2,7x прирост через софт
В раунде MLPerf Inference v6.0 NVIDIA показала результат, который сложно игнорировать: 2,5 млн токенов в секунду на конфигурации GB300 NVL72. Но цифра сама по себе — не самое интересное. Интереснее другое: значительная часть прироста пришла не от нового железа, а от программных оптимизаций поверх того же hardware.
Что такое GB300 NVL72
NVL72 — это конфигурация стойки на базе GPU NVIDIA Blackwell Ultra (архитектура GB300). В одной стойке размещаются 72 GPU, объединённые через NVLink и NVSwitch в единое пространство памяти. Суммарно в одной NVL72-стойке — 288 GPU в пересчёте на физические чипы (каждый Blackwell Ultra — это два die на одном корпусе). Пропускная способность NVLink пятого поколения составляет 1,8 ТБ/с между GPU, что делает стойку фактически одной большой NUMA-системой для модельного параллелизма.
Именно такая конфигурация использовалась в сабмишне для задачи DeepSeek R1 671B — самой тяжёлой в новом раунде по числу параметров.
Откуда берётся 2,7x без смены железа
NVIDIA специально выделила в своём сабмишне данные по приросту от программного стека. По сравнению с предыдущим раундом (MLPerf Inference v5.0) на том же классе железа throughput вырос в 2,7 раза. Что именно дало такой прирост:
- Disaggregated serving — разделение prefill и decode фаз инференса на разные GPU. Это позволяет параллелизировать обработку входящих запросов и генерацию токенов, не ставя их в очередь.
- FP4 квантизация — поддержка формата FP4 появилась в Blackwell-архитектуре; при правильной калибровке потери в качестве минимальны, а throughput растёт существенно.
- Оптимизированный планировщик батчей — динамическое батчирование запросов разной длины с учётом KV-кэша.
Все эти техники входят в TensorRT-LLM — открытый inference-движок NVIDIA. Сабмишн полностью воспроизводим: конфигурации и код опубликованы в репозитории MLCommons.
Контекст: масштаб vs. эффективность
Важная оговорка: 2,5 млн tokens/s — это результат всей NVL72-стойки в режиме Offline (максимальный batching, нет latency-ограничений). В сценарии Server, где latency на токен ограничена, цифры будут ниже — и именно Server-сценарий ближе к production.
Тем не менее даже в Server-сценарии результаты NVIDIA остаются лучшими в абсолютных числах по задаче DeepSeek R1. Это важно: именно reasoning-модели с длинным контекстом — наиболее ресурсоёмкий класс production-нагрузок сегодня.
Что это значит для практики
Прирост в 2,7x от software — это сигнал, что правильный inference-стек стоит не меньше правильного железа. Если у вас уже стоят Hopper или Blackwell-системы, но вы не обновляли TensorRT-LLM и не пробовали disaggregated serving — возможно, вы недополучаете существенную часть мощности своего кластера. Это один из редких случаев, когда бенчмарк даёт практически применимый совет.