Apr 29, 2026

Nvidia и Groq 3 LPX: первая специализированная inference-стойка в платформе Nvidia

nvidiagroqinferencedisaggregated-inferencelpuvera-rubin

На GTC 2026 Nvidia сделала то, чего от неё долго не ждали: добавила в свою платформу специализированное inference-железо стороннего производителя. Groq 3 LPX — это стойка, построенная на LPU-чипах Groq с SRAM-архитектурой, и теперь она официально часть экосистемы Nvidia.

Что внутри стойки

Groq 3 LPX вмещает 32 лотка, в каждом — по 8 LPU. Итого 256 ускорителей на стойку. LPU (Language Processing Unit) от Groq принципиально отличаются от GPU: вместо HBM они используют статическую память (SRAM) прямо на кристалле. Это даёт предсказуемую латентность и исключает узкое место, которое возникает при передаче весов модели из внешней памяти в вычислительные блоки.

Производство налажено на мощностях Samsung. Поставки запланированы на вторую половину 2026 года.

Disaggregated inference: NVL72 + LPX

Ключевая идея — disaggregated inference, то есть разделение двух фаз обработки запроса между разными типами железа.

Vera Rubin NVL72 берёт на себя prefill: это вычислительно интенсивная фаза, где модель обрабатывает весь входной контекст. Здесь нужна высокая вычислительная плотность, и NVL72 с её GPU-матрицей справляется с этим хорошо.

Groq 3 LPX занимается decode: пошаговая генерация токенов, где каждый шаг зависит от предыдущего и критична латентность. SRAM-архитектура LPU здесь в своей стихии — нет задержек на загрузку весов из HBM, нет непредсказуемых пиков.

Такое разделение позволяет масштабировать каждую часть пайплайна независимо. Если нужно больше throughput — докупаем NVL72. Если хотим снизить латентность decode — добавляем LPX.

Почему это важно для рынка

Для Nvidia это нестандартный шаг. Компания традиционно строила закрытую платформу: купил GPU — работай в экосистеме CUDA. Включение Groq в платформу означает признание того, что для некоторых задач специализированное железо выигрывает у GPU.

Для операторов AI-инфраструктуры это открывает возможность строить гетерогенные кластеры, не выходя за рамки одной платформы. Вместо того чтобы самостоятельно интегрировать LPU Groq с оркестрацией Nvidia, можно получить готовое решение.

Для самого Groq это фактически выход на масштаб гиперскейлеров через дистрибуцию Nvidia — компания годами продавала свой inference как сервис, теперь предлагает железо в составе чужой платформы.

Что ждать дальше

Поставки во 2H 2026 — это ещё далеко. До этого момента важно следить за тем, как Nvidia будет позиционировать LPX относительно собственных inference-решений на базе Blackwell и Rubin. Потенциальный конфликт интересов очевиден: если LPX будет заметно дешевле и эффективнее для decode, это создаёт давление на маржу GPU-бизнеса.

Пока анонс выглядит как попытка удержать enterprise-клиентов внутри платформы Nvidia, предложив им лучший инструмент для inference — даже если он сделан не самой Nvidia.