AMD Instinct MI355X пробивает отметку 1 млн токенов/с на MLPerf v6.0
AMD опубликовала результаты MLPerf Inference v6.0 с GPU Instinct MI355X: кластерный сабмишн показал более 1 млн токенов в секунду на задаче Llama-3.1 405B в режиме Offline. Это первое преодоление этой отметки для AMD в MLPerf, и компания подготовила подробный технический разбор того, как именно это было достигнуто.
CDNA4 и HBM3E: что изменилось в железе
MI355X — это GPU поколения CDNA4, следующий после MI300X. Ключевые аппаратные изменения по сравнению с предшественником:
- HBM3E вместо HBM3: пропускная способность памяти выросла примерно до 6 ТБ/с на GPU — это критично при работе с крупными моделями, где узкое место чаще всего именно memory bandwidth, а не вычислительная мощность.
- Увеличенная плотность матричных вычислений в FP8: MI355X поддерживает FP8 нативно, что даёт компактное представление весов и активаций без значительной потери точности.
- Объём HBM на борту: 288 ГБ, что позволяет держать большие модели целиком без разбивки на меньшие фрагменты при больших batch size.
Почему 1 млн tokens/s — значимая отметка
На практике рубеж в 1 млн tokens/s на одном кластере означает возможность обслуживать несколько тысяч одновременных пользователей с разумным временем ответа — в зависимости от длины генерируемых ответов. Для production-деплоймента reasoning-модели вроде DeepSeek R1 или Llama-405B это примерно соответствует нагрузке небольшого коммерческого сервиса.
До этого раунда AMD не подавала сабмишны с такими числами на кластерном масштабе в MLPerf. Переход через эту отметку — важный сигнал о зрелости как железа, так и software-стека.
Программная часть: ROCm и vLLM
AMD явно делает ставку на открытую экосистему. В сабмишне использовался ROCm последнего поколения в связке с vLLM — одним из самых распространённых inference-движков в open-source. Это осознанный выбор: показать, что production-результаты достижимы не только с проприетарным стеком, но и с инструментами, которые уже есть у большинства команд, работающих с открытыми моделями.
Ключевые техники оптимизации в сабмишне:
- Continuous batching с адаптивным размером батча в зависимости от состояния KV-кэша
- Tensor parallelism через несколько GPU с минимизацией latency на all-reduce операциях
- Кастомные kernels для attention на ROCm, оптимизированные под HBM3E-пропускную способность MI355X
Что это значит для рынка
AMD исторически отставала от NVIDIA в экосистеме для AI-инференса — не столько по железу, сколько по зрелости software-стека. Результат в MLPerf v6.0 показывает, что разрыв сокращается, причём на benchmark, где конфигурации полностью воспроизводимы и открыты.
Для команд, рассматривающих альтернативы H100/H200/B200, MI355X теперь имеет реальные сравнимые числа на тех же задачах. Это делает оценку ROI конкретнее, чем любые маркетинговые заявления.