Nvidia и Groq 3 LPX: первая специализированная inference-стойка в платформе Nvidia
На GTC 2026 Nvidia сделала то, чего от неё долго не ждали: добавила в свою платформу специализированное inference-железо стороннего производителя. Groq 3 LPX — это стойка, построенная на LPU-чипах Groq с SRAM-архитектурой, и теперь она официально часть экосистемы Nvidia.
Что внутри стойки
Groq 3 LPX вмещает 32 лотка, в каждом — по 8 LPU. Итого 256 ускорителей на стойку. LPU (Language Processing Unit) от Groq принципиально отличаются от GPU: вместо HBM они используют статическую память (SRAM) прямо на кристалле. Это даёт предсказуемую латентность и исключает узкое место, которое возникает при передаче весов модели из внешней памяти в вычислительные блоки.
Производство налажено на мощностях Samsung. Поставки запланированы на вторую половину 2026 года.
Disaggregated inference: NVL72 + LPX
Ключевая идея — disaggregated inference, то есть разделение двух фаз обработки запроса между разными типами железа.
Vera Rubin NVL72 берёт на себя prefill: это вычислительно интенсивная фаза, где модель обрабатывает весь входной контекст. Здесь нужна высокая вычислительная плотность, и NVL72 с её GPU-матрицей справляется с этим хорошо.
Groq 3 LPX занимается decode: пошаговая генерация токенов, где каждый шаг зависит от предыдущего и критична латентность. SRAM-архитектура LPU здесь в своей стихии — нет задержек на загрузку весов из HBM, нет непредсказуемых пиков.
Такое разделение позволяет масштабировать каждую часть пайплайна независимо. Если нужно больше throughput — докупаем NVL72. Если хотим снизить латентность decode — добавляем LPX.
Почему это важно для рынка
Для Nvidia это нестандартный шаг. Компания традиционно строила закрытую платформу: купил GPU — работай в экосистеме CUDA. Включение Groq в платформу означает признание того, что для некоторых задач специализированное железо выигрывает у GPU.
Для операторов AI-инфраструктуры это открывает возможность строить гетерогенные кластеры, не выходя за рамки одной платформы. Вместо того чтобы самостоятельно интегрировать LPU Groq с оркестрацией Nvidia, можно получить готовое решение.
Для самого Groq это фактически выход на масштаб гиперскейлеров через дистрибуцию Nvidia — компания годами продавала свой inference как сервис, теперь предлагает железо в составе чужой платформы.
Что ждать дальше
Поставки во 2H 2026 — это ещё далеко. До этого момента важно следить за тем, как Nvidia будет позиционировать LPX относительно собственных inference-решений на базе Blackwell и Rubin. Потенциальный конфликт интересов очевиден: если LPX будет заметно дешевле и эффективнее для decode, это создаёт давление на маржу GPU-бизнеса.
Пока анонс выглядит как попытка удержать enterprise-клиентов внутри платформы Nvidia, предложив им лучший инструмент для inference — даже если он сделан не самой Nvidia.