Lenovo ThinkSystem SR780a V3: HGX-сервер с Neptune direct liquid cooling
Мы редко пишем про отдельные SKU, но ThinkSystem SR780a V3 — хороший повод поговорить про то, как Lenovo упаковывает NVIDIA HGX в стойку вместе со своей системой direct water cooling Neptune. Это их флагманский GPU-сервер под обучение LLM и крупный HPC, и конструктивно он довольно сильно отличается от типового air-cooled HGX-шасси 6U–8U.
Формфактор и платформа
SR780a V3 построен вокруг NVIDIA HGX-бейсборда с восемью GPU и NVLink/NVSwitch между ними — это стандартный строительный блок для большинства современных training-узлов. Конкретное поколение GPU на этом шасси — Hopper (H100/H200 на HGX-плате), но Lenovo активно продвигает линейку SR-a V3 и SR-a V4 под Blackwell (HGX B200/B100), так что точный SKU стоит уточнять в конфигураторе — здесь легко промахнуться между поколениями.
Процессорная часть — два сокета Intel Xeon Scalable (Sapphire Rapids / Emerald Rapids в V3). AMD EPYC на этом конкретном шасси, насколько мы помним, Lenovo не заявляет — под EPYC у них отдельные линейки. Память — DDR5, плюс стандартный для HGX-узлов набор из NVMe U.2, нескольких PCIe Gen5 слотов под ConnectX-7 / BlueField-3 и OCP-слотов.
Neptune: что именно охлаждает жидкость
Главная фишка — Neptune direct water cooling. В отличие от гибридных решений, где жидкостью снимают тепло только с GPU, а CPU и VRM остаются на воздухе, Neptune в SR780a V3 — это cold plates на GPU, CPU, памяти и, насколько мы знаем, на ключевых компонентах платы (NVSwitch, VRM). Lenovo заявляет работу с относительно тёплой водой на входе — это важно для data-center-операторов, которые хотят обойтись без чиллеров и жить на dry coolers или free cooling.
Плюсы на практике: заметно ниже PUE, выше допустимая плотность на стойку (в теории — полная стойка из HGX-узлов без теплового провала), тише машзал. Минусы честные: манифолды, CDU, квик-коннекторы, обученный персонал и готовность ДЦ к воде в ряду. Для greenfield-площадок это нормально, для retrofit — отдельный проект.
Под что это берут
Целевой сценарий — обучение и файнтюнинг крупных моделей, где нужна связка из восьми GPU с полным NVLink-доменом, и HPC-симуляции, которые упираются в FP64 и HBM-пропускную способность. Inference тоже запускают, но для чисто инференс-ферм такой узел избыточен — там логичнее L40S или PCIe-шасси.
Где Lenovo в раскладе AI-серверов
Lenovo не так шумит, как Supermicro, но стабильно держит свой кусок AI-рынка — за счёт Neptune, интеграции с NVIDIA-референс-дизайнами и фокуса на корпоративных заказчиках, которым нужен сервис-контракт и нормальная документация. SR780a V3 в этой картине — типовой flagship-узел: если вы строите on-prem-кластер под LLM на Lenovo, начинается всё обычно с него или его преемника под Blackwell.