MLCommons выпускает MLPerf Inference v6.0
MLCommons опубликовал результаты MLPerf Inference v6.0 — очередного раунда отраслевого бенчмарка, который принято считать главным измерителем производительности систем AI-инференса. Мы разобрались, что нового в этом выпуске и почему методологические изменения важны не меньше самих цифр.
Что поменялось в методологии
Ключевое изменение v6.0 — переход к метрике throughput в токенах в секунду (tokens/s) как основной. Раньше результаты выражались в «запросах в секунду» (queries/s), что делало невозможным прямое сравнение производительности при работе с разными длинами контекста и размерами батчей. Теперь оба числа — входящие и исходящие токены — учитываются раздельно, что сразу убирает большую часть манипуляций со скрытыми параметрами.
Ещё одно изменение — требования к latency-ограничениям стали жёстче для сценария Server. Это намеренный шаг: бенчмарк должен отражать реальные production-условия, где пользователь ждёт ответ не дольше определённого порога.
Новые модели в составе бенчмарка
v6.0 добавляет четыре задачи, которых не было в предыдущих раундах:
- DeepSeek R1 — модель с chain-of-thought рассуждением, 671B параметров в полном варианте. Её включение отражает растущую роль reasoning-моделей в production-деплойментах.
- Qwen3-VL 235B — мультимодальная модель от Alibaba; задача ориентирована на visual question answering.
- GPT-OSS 120B — открытая модель от OpenAI; тест на инференс класса frontier с акцентом на latency при длинных контекстах.
- Whisper — speech-to-text от OpenAI; первое появление задачи транскрипции в MLPerf Inference.
Добавление Whisper принципиально: это первый выход бенчмарка за рамки text-to-text задач. Голосовые интерфейсы становятся обязательным компонентом production AI-стека, и индустрия получила общий эталон для сравнения hardware на этой задаче.
Масштаб участия
В раунде v6.0 подали сабмишны NVIDIA, AMD, Intel, HPE, Qualcomm, Google и ещё ряд компаний — всего более 30 участников. Это рекорд по количеству систем, протестированных в одном раунде.
Важно понимать, что MLPerf не ранжирует вендоров в виде единой таблицы: каждая задача, каждый сценарий (Offline, Server) и каждая размерность системы — это отдельная категория. Именно поэтому заявления вида «мы лучшие» от разных вендоров одновременно могут быть верными — они говорят про разные категории.
Почему это важно для практики
Бенчмарк MLPerf — не маркетинговый инструмент, а условие воспроизводимости. Все сабмишны публикуются с открытым кодом и конфигурациями, любой желающий может повторить тест. Это делает результаты значимыми при выборе hardware: если вендор показал 1 млн tokens/s на конкретной задаче с конкретными параметрами latency, значит, именно столько и можно ожидать на этой конфигурации.
Для тех, кто планирует покупку или аренду AI-инфраструктуры, v6.0 особенно полезен тем, что теперь охватывает reasoning-модели и speech. Это ближе к реальному production-стеку, чем предыдущие раунды.