AMD EPYC 9005 "Turin" на Zen 5 как host CPU для AI-серверов с GPU

amdepyczen5turincpuai-serversknowledge-only

AMD EPYC 9005, он же Turin, — пятое поколение серверных EPYC на архитектуре Zen 5. Анонсировали его в октябре 2024 года, и именно эти процессоры сейчас массово идут как host CPU в GPU-серверах для обучения и инференса LLM. Разберём, что мы о них знаем и почему их стоит рассматривать под AI-нагрузки.

Две линейки: classic Zen 5 и Zen 5c

Turin делится на две ветки в одном сокете SP5. Классический Zen 5 — до 128 ядер на сокет, с акцентом на частоту и single-thread производительность. Zen 5c (dense-вариант, Turin Dense) — до 192 ядер на сокет, чиплеты плотнее, частоты ниже, L3-кэш на ядро меньше. Обе линейки делят общий IOD и совместимы с платами Genoa/Bergamo после прошивки BIOS — это важный момент для тех, кто апгрейдит существующие SP5-платформы, а не собирает всё с нуля.

Для host-роли в AI-сервере критичны не столько суммарные ядра, сколько частота и число PCIe-линий на ядро. Поэтому под 8x H100/H200 чаще берут performance-SKU уровня 9554/9654/9684X-класса (точное наименование зависит от поколения), а не топовый dense.

Почему это хороший host под GPU

Несколько причин, по которым Turin так любят интеграторы GPU-платформ:

  • 128 линий PCIe Gen5 на сокет. Хватает на восемь GPU по x16 плюс NVMe и NIC ConnectX-7/8, без ухищрений с PCIe-свитчами там, где они не нужны.
  • 12 каналов DDR5. AMD заявляла поддержку до DDR5-6400 в ряде SKU, что даёт заметный прирост пропускной способности host-памяти против Genoa — а именно host-память держит staging-буферы, датасеты и KV-cache overflow.
  • CXL 2.0 — для сценариев с memory pooling, хотя в AI-продакшене это пока экзотика.
  • AVX-512 с полноширинным data path (в отличие от Zen 4, где AVX-512 исполнялся по двум тактам). Для препроцессинга на CPU и инференса классики это ощутимо.

Turin vs Intel Xeon 6

Прямой конкурент — Intel Xeon 6 (Granite Rapids на P-ядрах и Sierra Forest на E-ядрах). Xeon 6 тоже даёт DDR5, PCIe Gen5, AMX-инструкции для CPU-инференса. Но по формуле ядер-на-сокет Turin пока выигрывает: 128 performance ядер против примерно 86–128 у Granite Rapids в верхних SKU, и 192 dense ядра против 288 у Sierra Forest (но Sierra Forest — это E-ядра без SMT и AVX-512). AMX у Intel — сильный аргумент для чистого CPU-инференса, но в GPU-сервере host CPU обычно не молотит матрицы сам, так что перевес AMX теряется.

Что брать под AI-сервер

Если коротко: под 8-GPU training-ноду берём dual-socket EPYC 9005 performance-класса, от 64 ядер на сокет, с быстрой DDR5 и полным набором PCIe Gen5. Под inference-фермы с плотной упаковкой маленьких моделей можно смотреть на Zen 5c — больше vCPU в rack-unit при сопоставимом TDP. Точные показатели TDP и частот зависят от SKU, тут лучше сверяться с актуальным датащитом производителя сервера.