Supermicro SYS-821GE-TNHR: 8U-сервер на 8 GPU для обучения и инференса

supermicronvidiagpu-servershgxh100h200

Supermicro SYS-821GE-TNHR — 8U rackmount-сервер, построенный вокруг платформы NVIDIA HGX. Система вмещает 8 GPU в формате SXM5 — H100 (80 GB HBM3) или H200 (141 GB HBM3e). Разбираем, что внутри и для каких задач это имеет смысл.

Платформа и процессоры

Здесь стоит материнская плата X13DEG-OAD с двумя сокетами LGA-4677 под Intel Xeon Scalable 4-го и 5-го поколений. Максимум — 64 ядра на процессор при TDP до 350 Вт. По памяти — 32 слота DDR5 ECC RDIMM до 5600 MT/s, потолок 8 ТБ (32 x 256 GB 3DS RDIMM).

GPU и интерконнект

Восемь GPU объединены через 4 чипа NVSwitch четвертого поколения — полносвязная топология, каждый GPU видит память остальных на скорости до 900 GB/s по NVLink 4.0. Если берем конфигурацию с H200, суммарный объем HBM достигает 1128 GB — можно разместить крупную модель целиком в GPU-памяти без шардинга по узлам.

Отдельно отметим сетевую часть: восемь низкопрофильных слотов PCIe 5.0 x16 отведены под адаптеры с поддержкой GPUDirect RDMA — прямая передача данных между GPU и NIC в обход CPU. Типичная конфигурация для кластера: 8 NVIDIA BlueField-3 SuperNIC (по одному на GPU) плюс BlueField-3 DPU для управления, суммарная пропускная способность до 3.2 Tbps на узел.

Хранение и питание

До 16 hot-swap NVMe U.2/U.3 дисков (2.5”) плюс до 8 SATA и 2 слота M.2 для загрузочных накопителей. Питание — 6 или 8 блоков по 3000 Вт с Titanium-эффективностью в конфигурации 4+2 или 4+4 для полной избыточности.

Охлаждение

Сервер доступен в двух вариантах. Воздушное охлаждение — 10 hot-swap вентиляторов с оптимизированным контролем скорости. Жидкостное — 4 контура для GPU (каждый охлаждает пару GPU и один NVSwitch) плюс отдельный контур для CPU. Быстросъемные фитинги позволяют отключить все 10 соединений за 20 секунд — удобно при обслуживании. Отдельно нравится, что GPU-лоток выдвигается из передней части шасси без извлечения сервера из стойки.

Кому это нужно

SYS-821GE-TNHR — рабочая лошадка для обучения LLM, файнтюнинга и инференса крупных моделей. Основные сценарии — AI-кластеры в дата-центрах, HPC, научные вычисления. Конфигурация с H200 особенно интересна там, где объем GPU-памяти критичен: обучение моделей с длинным контекстом, работа с большими батчами при инференсе.

По ценам: barebone-шасси (без CPU, RAM и GPU) начинается от $25 000. Полностью собранная система с 8x H100 реалистично обойдется в $200 000+.

Источники: