Supermicro HGX B300: 144 GPU в одном rack с жидкостным охлаждением

supermicrohgx-b300blackwell-ultraliquid-coolinggpu-serverinfiniband

Supermicro объявила о поставках новых жидкостно-охлаждаемых систем на базе NVIDIA HGX B300. Два форм-фактора — 2-OU в стандарте OCP ORV3 и классический 4U — покрывают разные сценарии: первый ориентирован на максимальную плотность в rack-масштабе, второй — на более традиционную инсталляцию в стандартном дата-центре.

Что внутри каждой ноды

Каждая система несёт 8 GPU NVIDIA Blackwell Ultra с TDP до 1100 Вт на чип. Суммарный объём HBM3e — 2.1 TB на ноду, что критично для моделей, которые не помещаются в стандартные 80 GB HBM3 Hopper. Сеть построена на ConnectX-8 SuperNIC с пропускной способностью 800 Gb/s и поддержкой Quantum-X800 InfiniBand — это уже уровень, при котором inter-node коммуникация перестаёт быть узким местом в большинстве сценариев распределённого обучения.

Плотность 2-OU формата

Формат 2-OU под OCP ORV3 — это 18 нод в одной стойке, то есть 144 GPU суммарно. Для сравнения: классический 8U DGX H100 даёт 8 GPU на 8U, то есть 8 GPU на 8 rack unit против 144 GPU на 36 rack unit в новом решении. Плотность вычислений на единицу объёма стойки вырастает принципиально.

При таком TDP воздушное охлаждение уже не рассматривается как опция. Supermicro интегрировала in-row CDU (Coolant Distribution Unit) мощностью 1.8 MW. Это позволяет держать GPU в термальных режимах без деградации производительности — проблема, которая хорошо знакома тем, кто эксплуатировал воздушно-охлаждаемые Hopper под sustained load.

Зачем это нужно прямо сейчас

Blackwell Ultra — следующий шаг после H100/H200, и переход на него означает не просто прирост флопсов. HBM3e 2.1 TB на ноду снимает ограничения по размеру модели, которая помещается в одну physical node без шардинга. Это меняет подход к scheduling и model parallelism: в ряде конфигураций можно держать всю модель локально и убрать сложность tensor-parallel across nodes.

ConnectX-8 с 800 Gb/s и Quantum-X800 InfiniBand — это задел под следующее поколение распределённых тренировок, где inter-GPU bandwidth становится примерно равным bandwidth внутри одного узла с NVLink предыдущего поколения.

Что это значит для закупок

2-OU формат под OCP ORV3 требует соответствующей rack-инфраструктуры — не любой дата-центр готов к этому физически. Если у вас стандартные 19” стойки, вариант 4U более практичен, хотя плотность ниже.

CDU на 1.8 MW — это инфраструктурный проект, не просто покупка серверов. Нужна подготовка: подводка охлаждённой воды, leak detection, договорённости с дата-центром по cooling capacity.

Тем не менее для тех, кто строит GPU-кластер от 100+ GPU и смотрит на следующие 2–3 года, HGX B300 в 2-OU формате от Supermicro — одно из наиболее конкурентоспособных предложений по соотношению compute density к rack space прямо сейчас.