HBM4: удвоение шины и 2+ TB/s на стек

hbmmemorysk-hynixsamsungnvidiaamd

Каждое новое поколение ускорителей упирается в одно и то же ограничение — скорость, с которой GPU может читать данные из памяти. HBM4 — следующий шаг в гонке за bandwidth, и главное изменение здесь архитектурное: ширина интерфейса удваивается с 1024 до 2048 бит на стек.

Что меняется по сравнению с HBM3e

ПараметрHBM3eHBM4
Ширина интерфейса1024 бит2048 бит
Скорость на пиндо 9.6 Gb/s8–11.7 Gb/s
Bandwidth на стек~1.2 TB/s2+ TB/s
Ёмкость (16-Hi)до 36 GBдо 48 GB
Энергоэффективностьбазовая~40% ниже потребление на бит

Удвоение ширины шины — самое значимое архитектурное изменение в HBM за последние поколения. Раньше bandwidth наращивали в основном за счёт скорости на пин; теперь — за счёт параллелизма. Это позволяет получить 2+ TB/s при умеренных тактовых частотах и лучшей энергоэффективности.

Производители и сроки

Рынок HBM фактически делят три компании: SK Hynix, Samsung и Micron.

SK Hynix показала 16-слойный (16-Hi) стек HBM4 ёмкостью 48 GB со скоростью 11.7 Gb/s на пин — это рекорд плотности при сохранении стандартной высоты корпуса 775 мкм. Массовое производство запланировано на вторую половину 2026.

Samsung начала поставки образцов HBM4 в феврале 2026 со скоростью до 11.7 Gb/s. Samsung делает ставку на собственную технологию упаковки и раннее сотрудничество с заказчиками GPU.

Micron пока отстаёт по публичным анонсам HBM4, но активно наращивает мощности HBM3e и готовит переход.

Кто будет потреблять HBM4

Первые ускорители на HBM4 — NVIDIA Vera Rubin (ожидается во второй половине 2026, 288 GB HBM4 на GPU, до 13 TB/s bandwidth) и AMD Instinct MI430X. Для Rubin NVIDIA заявляет стоечное решение NVL144 с 3.6 ExaFLOPS FP4 — и HBM4 здесь критичен для того, чтобы вычислительные блоки не простаивали в ожидании данных.

Уже на горизонте — HBM4E: скорости до 16 Gb/s, bandwidth свыше 4 TB/s на стек, таймфрейм — 2027. Гонка bandwidth далека от завершения.

Что это значит на практике

Больше bandwidth — больше batch size при инференсе, ниже latency на токен, возможность обслуживать крупные модели на меньшем количестве ускорителей. Переход с HBM3e на HBM4 даст прирост bandwidth порядка 70–100% при сопоставимой ёмкости стека. Для кластеров, где memory bandwidth является bottleneck (а это большинство LLM-нагрузок), это ощутимый скачок.

Источники: