AMD Instinct MI350X: архитектура CDNA 4 и 288 GB HBM3e

amdinstinctgpucdnahbm3einference

AMD представила Instinct MI350X — ускоритель следующего поколения на архитектуре CDNA 4. Это прямой ответ на NVIDIA H200 и B200, и главный козырь здесь — объем памяти: 288 GB HBM3e на одном чипе. Разбираемся, что это значит на практике.

Архитектура CDNA 4

MI350X построен на CDNA 4 — четвертом поколении вычислительной архитектуры AMD для дата-центров. По сравнению с CDNA 3 (MI300X) заявлено кратное увеличение производительности на операциях FP4 и FP8, что критично для инференса. Чип по-прежнему выпускается в формате OAM (OCP Accelerator Module), совместимом с платформами от Supermicro, Dell, HPE и Lenovo.

Ключевое архитектурное изменение — переработанный compute die на улучшенном техпроцессе и обновленная шина Infinity Fabric для связи между чиплетами. MI350X сохраняет чиплетную компоновку: несколько compute-дайсов и стеки HBM на одной подложке.

Память: 288 GB HBM3e

Это главная цифра. Для сравнения: NVIDIA H200 — 141 GB HBM3e, B200 — 192 GB HBM3e. У MI350X — 288 GB. Пропускная способность памяти — свыше 8 TB/s.

На практике это означает, что модель класса Llama 3 70B в формате FP16 (~140 GB) размещается на одном ускорителе целиком, с запасом под KV-кэш. Для моделей 405B достаточно двух MI350X вместо трех-четырех H200. Меньше карт — меньше узлов, проще сеть, ниже стоимость кластера.

ROCm и экосистема

MI350X работает с открытым стеком ROCm. Поддержка PyTorch, JAX, vLLM и основных инференс-фреймворков заявлена из коробки. В реальности зрелость ROCm — главный вопрос для тех, кто мигрирует с CUDA. Ситуация заметно улучшилась с ROCm 6.x: большинство популярных моделей запускаются без модификаций, но встречаются edge-кейсы с кастомными CUDA-ядрами.

AMD активно работает с облачными провайдерами — MI350X доступен у Microsoft Azure и Oracle Cloud, что снижает порог входа для тестирования без закупки железа.

Позиционирование

AMD целит MI350X прежде всего в инференс. Объем памяти позволяет обслуживать крупные модели с высоким batch size, а улучшенная производительность FP4/FP8 повышает throughput на токен. Для обучения MI350X тоже применим, но здесь AMD пока уступает NVIDIA по экосистеме распределенного обучения (NCCL, NVLink).

По соотношению «гигабайты HBM на доллар» MI350X выглядит сильно. Но железо без софта — просто кремний. Если ваш стек завязан на CUDA, переход потребует инвестиций в тестирование и адаптацию. Если нет — MI350X стоит рассмотреть всерьез.

Источники: