AWS и Cerebras CS-3: wafer-scale чипы для inference disaggregation в облаке
AWS стал первым гиперскейлером, который разворачивает wafer-scale чипы Cerebras в собственных дата-центрах. Речь идёт о CS-3 на базе WSE-3 — и схема работы та же, что у Nvidia с Groq: disaggregated inference, где разные фазы обработки запроса уходят на разное железо.
Что такое CS-3 и WSE-3
Cerebras WSE-3 — это один кремниевый кристалл размером с целую пластину (wafer). 900 тысяч ядер, 44 ГБ on-chip SRAM и 27 петабайт в секунду внутренней пропускной способности — всё это на одном чипе, без межчиповых соединений и без HBM. Архитектура радикально отличается от классических GPU-ускорителей: вместо стека памяти рядом с вычислительными блоками — единое вычислительное полотно с памятью прямо внутри.
CS-3 — это сервер вокруг этого кристалла. По физическим размерам он занимает целый шкаф, но с точки зрения системы выглядит как единый ускоритель.
Как устроена схема inference disaggregation
AWS строит пайплайн из двух типов железа. Trainium3 — собственный чип AWS для обучения и prefill-фазы inference — обрабатывает входной контекст. Это compute-intensive задача, где важна плотность вычислений и параллелизм.
CS-3 берёт decode: генерацию токенов шаг за шагом. Здесь SRAM-архитектура Cerebras даёт преимущество — нет задержек на обращение к внешней памяти, скорость генерации токенов предсказуема и высокая.
Связь между Trainium3 и CS-3 идёт через EFA (Elastic Fabric Adapter) — высокоскоростную сеть AWS с низкой латентностью. AWS заявляет 5x рост token throughput по сравнению с однородным inference на GPU.
Почему гиперскейлер идёт на такой шаг
Для AWS это нетривиальное решение. Компания активно инвестирует в собственные чипы — Trainium и Inferentia — и исторически не спешила размещать у себя чужое железо в роли inference-движка. Тем не менее WSE-3 закрывает нишу, где собственные чипы AWS пока не конкурируют: очень быстрый decode при больших batch-размерах.
С точки зрения операторов инфраструктуры важно, что AWS берёт на себя интеграцию и эксплуатацию CS-3. Клиенту не нужно разбираться в особенностях wafer-scale архитектуры — он получает API через Amazon Bedrock.
Что ждать и когда
Сервис должен выйти в Amazon Bedrock во второй половине 2026 года. До этого времени детали API, модели ценообразования и список поддерживаемых моделей неизвестны.
Важный вопрос — насколько заявленный 5x throughput реализуется в реальных сценариях. Цифра явно получена при определённых условиях batch-размера и длины контекста, и для production-нагрузок результаты будут варьироваться. Следить за независимыми бенчмарками стоит ближе к запуску.
Для рынка в целом появление CS-3 у AWS — это сигнал, что disaggregated inference с wafer-scale чипами на decode перестаёт быть экзотикой и движется в mainstream облачной инфраструктуры.