NVIDIA DGX B200 и SuperPOD: референсная платформа на Blackwell

nvidiadgxblackwellb200nvlinksuperpod

DGX B200 — очередная итерация референсной серверной платформы NVIDIA, теперь на архитектуре Blackwell. Это система, которую NVIDIA показывает как эталон, а OEM-вендоры (Dell, HPE, Lenovo, Supermicro) адаптируют в свои серверные линейки. Смотрим, что изменилось по сравнению с DGX H100.

Узел DGX B200

В основе — 8 GPU NVIDIA B200, каждый с 192 GB HBM3e. Суммарно на узел приходится 1.5 TB GPU-памяти. Процессоры — два Intel Xeon Scalable (до 5-го поколения), до 4 TB системной DDR5.

Главное изменение — пятое поколение NVLink. Пропускная способность между GPU выросла до 1.8 TB/s на GPU (бидирекционально), а NVSwitch нового поколения обеспечивает полносвязную топологию all-to-all внутри узла. Для сравнения: DGX H100 давал 900 GB/s по NVLink 4.0 — ровно двукратный прирост.

Энергопотребление узла — порядка 14.3 кВт (TDP 8 GPU + CPU + инфраструктура). Это существенно больше, чем ~10.2 кВт у DGX H100, и фактически требует жидкостного охлаждения. NVIDIA предлагает DGX B200 в варианте с direct-to-chip liquid cooling.

DGX SuperPOD

SuperPOD — архитектура масштабирования. DGX SuperPOD на B200 объединяет до 576 GPU (72 узла) через сеть NVIDIA Quantum-2 InfiniBand NDR400. Узлы соединяются fat-tree топологией с пропускной способностью 400 Gb/s на порт.

Для ещё больших конфигураций NVIDIA предлагает NVLink Domain — технологию, которая расширяет NVLink-связность за пределы одного узла через NVLink Switch. До 72 GPU в одном NVLink-домене могут обращаться к памяти друг друга напрямую, без InfiniBand. Это критично для обучения моделей с триллионами параметров, где коммуникация между GPU — узкое место.

Сравнение с DGX H100

ПараметрDGX H100DGX B200
GPU8x H100 80 GB8x B200 192 GB
Память GPU640 GB HBM31536 GB HBM3e
NVLink4.0, 900 GB/s5.0, 1800 GB/s
TDP узла~10.2 кВт~14.3 кВт
FP8 (узел)~32 PFLOPS~72 PFLOPS

По производительности FP8 прирост — более чем двукратный. По памяти — 2.4x. Это позволяет обучать модели крупнее на меньшем количестве узлов и сокращать время обучения пропорционально.

Кому это

DGX B200 — для организаций, которые обучают или дообучают модели масштаба сотен миллиардов параметров: крупные облачные провайдеры, AI-лаборатории, enterprise с собственной инфраструктурой. Стоимость одного узла — порядка $400 000+, SuperPOD — восьмизначные цифры. Но если задача требует такого масштаба, альтернатив с сопоставимой экосистемой на рынке пока нет.

Источники: