AMD Instinct MI355X пробивает отметку 1 млн токенов/с на MLPerf v6.0

amdinstinctmi355xmlperfbenchmarksinferencecdna4hbm3e

AMD опубликовала результаты MLPerf Inference v6.0 с GPU Instinct MI355X: кластерный сабмишн показал более 1 млн токенов в секунду на задаче Llama-3.1 405B в режиме Offline. Это первое преодоление этой отметки для AMD в MLPerf, и компания подготовила подробный технический разбор того, как именно это было достигнуто.

CDNA4 и HBM3E: что изменилось в железе

MI355X — это GPU поколения CDNA4, следующий после MI300X. Ключевые аппаратные изменения по сравнению с предшественником:

  • HBM3E вместо HBM3: пропускная способность памяти выросла примерно до 6 ТБ/с на GPU — это критично при работе с крупными моделями, где узкое место чаще всего именно memory bandwidth, а не вычислительная мощность.
  • Увеличенная плотность матричных вычислений в FP8: MI355X поддерживает FP8 нативно, что даёт компактное представление весов и активаций без значительной потери точности.
  • Объём HBM на борту: 288 ГБ, что позволяет держать большие модели целиком без разбивки на меньшие фрагменты при больших batch size.

Почему 1 млн tokens/s — значимая отметка

На практике рубеж в 1 млн tokens/s на одном кластере означает возможность обслуживать несколько тысяч одновременных пользователей с разумным временем ответа — в зависимости от длины генерируемых ответов. Для production-деплоймента reasoning-модели вроде DeepSeek R1 или Llama-405B это примерно соответствует нагрузке небольшого коммерческого сервиса.

До этого раунда AMD не подавала сабмишны с такими числами на кластерном масштабе в MLPerf. Переход через эту отметку — важный сигнал о зрелости как железа, так и software-стека.

Программная часть: ROCm и vLLM

AMD явно делает ставку на открытую экосистему. В сабмишне использовался ROCm последнего поколения в связке с vLLM — одним из самых распространённых inference-движков в open-source. Это осознанный выбор: показать, что production-результаты достижимы не только с проприетарным стеком, но и с инструментами, которые уже есть у большинства команд, работающих с открытыми моделями.

Ключевые техники оптимизации в сабмишне:

  • Continuous batching с адаптивным размером батча в зависимости от состояния KV-кэша
  • Tensor parallelism через несколько GPU с минимизацией latency на all-reduce операциях
  • Кастомные kernels для attention на ROCm, оптимизированные под HBM3E-пропускную способность MI355X

Что это значит для рынка

AMD исторически отставала от NVIDIA в экосистеме для AI-инференса — не столько по железу, сколько по зрелости software-стека. Результат в MLPerf v6.0 показывает, что разрыв сокращается, причём на benchmark, где конфигурации полностью воспроизводимы и открыты.

Для команд, рассматривающих альтернативы H100/H200/B200, MI355X теперь имеет реальные сравнимые числа на тех же задачах. Это делает оценку ROI конкретнее, чем любые маркетинговые заявления.