NVIDIA DGX B200 и SuperPOD: референсная платформа на Blackwell
DGX B200 — очередная итерация референсной серверной платформы NVIDIA, теперь на архитектуре Blackwell. Это система, которую NVIDIA показывает как эталон, а OEM-вендоры (Dell, HPE, Lenovo, Supermicro) адаптируют в свои серверные линейки. Смотрим, что изменилось по сравнению с DGX H100.
Узел DGX B200
В основе — 8 GPU NVIDIA B200, каждый с 192 GB HBM3e. Суммарно на узел приходится 1.5 TB GPU-памяти. Процессоры — два Intel Xeon Scalable (до 5-го поколения), до 4 TB системной DDR5.
Главное изменение — пятое поколение NVLink. Пропускная способность между GPU выросла до 1.8 TB/s на GPU (бидирекционально), а NVSwitch нового поколения обеспечивает полносвязную топологию all-to-all внутри узла. Для сравнения: DGX H100 давал 900 GB/s по NVLink 4.0 — ровно двукратный прирост.
Энергопотребление узла — порядка 14.3 кВт (TDP 8 GPU + CPU + инфраструктура). Это существенно больше, чем ~10.2 кВт у DGX H100, и фактически требует жидкостного охлаждения. NVIDIA предлагает DGX B200 в варианте с direct-to-chip liquid cooling.
DGX SuperPOD
SuperPOD — архитектура масштабирования. DGX SuperPOD на B200 объединяет до 576 GPU (72 узла) через сеть NVIDIA Quantum-2 InfiniBand NDR400. Узлы соединяются fat-tree топологией с пропускной способностью 400 Gb/s на порт.
Для ещё больших конфигураций NVIDIA предлагает NVLink Domain — технологию, которая расширяет NVLink-связность за пределы одного узла через NVLink Switch. До 72 GPU в одном NVLink-домене могут обращаться к памяти друг друга напрямую, без InfiniBand. Это критично для обучения моделей с триллионами параметров, где коммуникация между GPU — узкое место.
Сравнение с DGX H100
| Параметр | DGX H100 | DGX B200 |
|---|---|---|
| GPU | 8x H100 80 GB | 8x B200 192 GB |
| Память GPU | 640 GB HBM3 | 1536 GB HBM3e |
| NVLink | 4.0, 900 GB/s | 5.0, 1800 GB/s |
| TDP узла | ~10.2 кВт | ~14.3 кВт |
| FP8 (узел) | ~32 PFLOPS | ~72 PFLOPS |
По производительности FP8 прирост — более чем двукратный. По памяти — 2.4x. Это позволяет обучать модели крупнее на меньшем количестве узлов и сокращать время обучения пропорционально.
Кому это
DGX B200 — для организаций, которые обучают или дообучают модели масштаба сотен миллиардов параметров: крупные облачные провайдеры, AI-лаборатории, enterprise с собственной инфраструктурой. Стоимость одного узла — порядка $400 000+, SuperPOD — восьмизначные цифры. Но если задача требует такого масштаба, альтернатив с сопоставимой экосистемой на рынке пока нет.
Источники: