AWS и Cerebras CS-3: wafer-scale чипы для inference disaggregation в облаке

awscerebraswafer-scaleinferencedisaggregated-inferenceamazon-bedrock

AWS стал первым гиперскейлером, который разворачивает wafer-scale чипы Cerebras в собственных дата-центрах. Речь идёт о CS-3 на базе WSE-3 — и схема работы та же, что у Nvidia с Groq: disaggregated inference, где разные фазы обработки запроса уходят на разное железо.

Что такое CS-3 и WSE-3

Cerebras WSE-3 — это один кремниевый кристалл размером с целую пластину (wafer). 900 тысяч ядер, 44 ГБ on-chip SRAM и 27 петабайт в секунду внутренней пропускной способности — всё это на одном чипе, без межчиповых соединений и без HBM. Архитектура радикально отличается от классических GPU-ускорителей: вместо стека памяти рядом с вычислительными блоками — единое вычислительное полотно с памятью прямо внутри.

CS-3 — это сервер вокруг этого кристалла. По физическим размерам он занимает целый шкаф, но с точки зрения системы выглядит как единый ускоритель.

Как устроена схема inference disaggregation

AWS строит пайплайн из двух типов железа. Trainium3 — собственный чип AWS для обучения и prefill-фазы inference — обрабатывает входной контекст. Это compute-intensive задача, где важна плотность вычислений и параллелизм.

CS-3 берёт decode: генерацию токенов шаг за шагом. Здесь SRAM-архитектура Cerebras даёт преимущество — нет задержек на обращение к внешней памяти, скорость генерации токенов предсказуема и высокая.

Связь между Trainium3 и CS-3 идёт через EFA (Elastic Fabric Adapter) — высокоскоростную сеть AWS с низкой латентностью. AWS заявляет 5x рост token throughput по сравнению с однородным inference на GPU.

Почему гиперскейлер идёт на такой шаг

Для AWS это нетривиальное решение. Компания активно инвестирует в собственные чипы — Trainium и Inferentia — и исторически не спешила размещать у себя чужое железо в роли inference-движка. Тем не менее WSE-3 закрывает нишу, где собственные чипы AWS пока не конкурируют: очень быстрый decode при больших batch-размерах.

С точки зрения операторов инфраструктуры важно, что AWS берёт на себя интеграцию и эксплуатацию CS-3. Клиенту не нужно разбираться в особенностях wafer-scale архитектуры — он получает API через Amazon Bedrock.

Что ждать и когда

Сервис должен выйти в Amazon Bedrock во второй половине 2026 года. До этого времени детали API, модели ценообразования и список поддерживаемых моделей неизвестны.

Важный вопрос — насколько заявленный 5x throughput реализуется в реальных сценариях. Цифра явно получена при определённых условиях batch-размера и длины контекста, и для production-нагрузок результаты будут варьироваться. Следить за независимыми бенчмарками стоит ближе к запуску.

Для рынка в целом появление CS-3 у AWS — это сигнал, что disaggregated inference с wafer-scale чипами на decode перестаёт быть экзотикой и движется в mainstream облачной инфраструктуры.