NVIDIA GB300 NVL72: 2,5 млн токенов/с и 2,7x прирост через софт

nvidiablackwellmlperfbenchmarksinferencegb300nvl72

В раунде MLPerf Inference v6.0 NVIDIA показала результат, который сложно игнорировать: 2,5 млн токенов в секунду на конфигурации GB300 NVL72. Но цифра сама по себе — не самое интересное. Интереснее другое: значительная часть прироста пришла не от нового железа, а от программных оптимизаций поверх того же hardware.

Что такое GB300 NVL72

NVL72 — это конфигурация стойки на базе GPU NVIDIA Blackwell Ultra (архитектура GB300). В одной стойке размещаются 72 GPU, объединённые через NVLink и NVSwitch в единое пространство памяти. Суммарно в одной NVL72-стойке — 288 GPU в пересчёте на физические чипы (каждый Blackwell Ultra — это два die на одном корпусе). Пропускная способность NVLink пятого поколения составляет 1,8 ТБ/с между GPU, что делает стойку фактически одной большой NUMA-системой для модельного параллелизма.

Именно такая конфигурация использовалась в сабмишне для задачи DeepSeek R1 671B — самой тяжёлой в новом раунде по числу параметров.

Откуда берётся 2,7x без смены железа

NVIDIA специально выделила в своём сабмишне данные по приросту от программного стека. По сравнению с предыдущим раундом (MLPerf Inference v5.0) на том же классе железа throughput вырос в 2,7 раза. Что именно дало такой прирост:

  • Disaggregated serving — разделение prefill и decode фаз инференса на разные GPU. Это позволяет параллелизировать обработку входящих запросов и генерацию токенов, не ставя их в очередь.
  • FP4 квантизация — поддержка формата FP4 появилась в Blackwell-архитектуре; при правильной калибровке потери в качестве минимальны, а throughput растёт существенно.
  • Оптимизированный планировщик батчей — динамическое батчирование запросов разной длины с учётом KV-кэша.

Все эти техники входят в TensorRT-LLM — открытый inference-движок NVIDIA. Сабмишн полностью воспроизводим: конфигурации и код опубликованы в репозитории MLCommons.

Контекст: масштаб vs. эффективность

Важная оговорка: 2,5 млн tokens/s — это результат всей NVL72-стойки в режиме Offline (максимальный batching, нет latency-ограничений). В сценарии Server, где latency на токен ограничена, цифры будут ниже — и именно Server-сценарий ближе к production.

Тем не менее даже в Server-сценарии результаты NVIDIA остаются лучшими в абсолютных числах по задаче DeepSeek R1. Это важно: именно reasoning-модели с длинным контекстом — наиболее ресурсоёмкий класс production-нагрузок сегодня.

Что это значит для практики

Прирост в 2,7x от software — это сигнал, что правильный inference-стек стоит не меньше правильного железа. Если у вас уже стоят Hopper или Blackwell-системы, но вы не обновляли TensorRT-LLM и не пробовали disaggregated serving — возможно, вы недополучаете существенную часть мощности своего кластера. Это один из редких случаев, когда бенчмарк даёт практически применимый совет.