MLCommons выпускает MLPerf Inference v6.0

mlperfbenchmarksinferencedeepseekmlcommons

MLCommons опубликовал результаты MLPerf Inference v6.0 — очередного раунда отраслевого бенчмарка, который принято считать главным измерителем производительности систем AI-инференса. Мы разобрались, что нового в этом выпуске и почему методологические изменения важны не меньше самих цифр.

Что поменялось в методологии

Ключевое изменение v6.0 — переход к метрике throughput в токенах в секунду (tokens/s) как основной. Раньше результаты выражались в «запросах в секунду» (queries/s), что делало невозможным прямое сравнение производительности при работе с разными длинами контекста и размерами батчей. Теперь оба числа — входящие и исходящие токены — учитываются раздельно, что сразу убирает большую часть манипуляций со скрытыми параметрами.

Ещё одно изменение — требования к latency-ограничениям стали жёстче для сценария Server. Это намеренный шаг: бенчмарк должен отражать реальные production-условия, где пользователь ждёт ответ не дольше определённого порога.

Новые модели в составе бенчмарка

v6.0 добавляет четыре задачи, которых не было в предыдущих раундах:

  • DeepSeek R1 — модель с chain-of-thought рассуждением, 671B параметров в полном варианте. Её включение отражает растущую роль reasoning-моделей в production-деплойментах.
  • Qwen3-VL 235B — мультимодальная модель от Alibaba; задача ориентирована на visual question answering.
  • GPT-OSS 120B — открытая модель от OpenAI; тест на инференс класса frontier с акцентом на latency при длинных контекстах.
  • Whisper — speech-to-text от OpenAI; первое появление задачи транскрипции в MLPerf Inference.

Добавление Whisper принципиально: это первый выход бенчмарка за рамки text-to-text задач. Голосовые интерфейсы становятся обязательным компонентом production AI-стека, и индустрия получила общий эталон для сравнения hardware на этой задаче.

Масштаб участия

В раунде v6.0 подали сабмишны NVIDIA, AMD, Intel, HPE, Qualcomm, Google и ещё ряд компаний — всего более 30 участников. Это рекорд по количеству систем, протестированных в одном раунде.

Важно понимать, что MLPerf не ранжирует вендоров в виде единой таблицы: каждая задача, каждый сценарий (Offline, Server) и каждая размерность системы — это отдельная категория. Именно поэтому заявления вида «мы лучшие» от разных вендоров одновременно могут быть верными — они говорят про разные категории.

Почему это важно для практики

Бенчмарк MLPerf — не маркетинговый инструмент, а условие воспроизводимости. Все сабмишны публикуются с открытым кодом и конфигурациями, любой желающий может повторить тест. Это делает результаты значимыми при выборе hardware: если вендор показал 1 млн tokens/s на конкретной задаче с конкретными параметрами latency, значит, именно столько и можно ожидать на этой конфигурации.

Для тех, кто планирует покупку или аренду AI-инфраструктуры, v6.0 особенно полезен тем, что теперь охватывает reasoning-модели и speech. Это ближе к реальному production-стеку, чем предыдущие раунды.