Cerebras CS-3: Wafer-Scale Engine 3 против GPU-кластеров

cerebrascs3wse3wafer-scaleai-acceleratorhpcknowledge-only

В индустрии AI-ускорителей Cerebras занимает нишу, в которую никто больше всерьёз не лезет: вместо того чтобы резать кремниевую пластину на сотни отдельных чипов, они делают один ускоритель размером с саму пластину. Флагман линейки — CS-3, построенный вокруг Wafer-Scale Engine 3 (WSE-3). Разбираемся, что это за зверь и почему он ещё жив, когда рынок захвачен NVIDIA.

От CS-1 к CS-3

Линейка развивалась последовательно. CS-1 с WSE-1 появился в 2019 году и был первым коммерчески отгружаемым wafer-scale-ускорителем. CS-2 с WSE-2 вышел в 2021-м на более тонком техпроцессе TSMC и увеличил число ядер и встроенной SRAM примерно вдвое. CS-3 с WSE-3 анонсирован в 2024 году, производится по техпроцессу TSMC 5 нм. Cerebras заявляла порядка 900 тысяч AI-ядер на одной пластине и несколько триллионов транзисторов — точные цифры стоит сверять с документацией, но порядок величины именно такой: это на полтора-два порядка больше всего, что помещается в один GPU.

Принципиальное отличие от GPU

GPU-кластер — это набор отдельных чипов, связанных через NVLink, NVSwitch, InfiniBand или Ethernet. Любой обмен данными между GPU проходит через эти интерконнекты, и именно они становятся узким местом при обучении больших моделей: часть времени карты простаивают, ждут градиенты.

У WSE-3 все ядра живут на одном куске кремния и общаются через on-die mesh. Память — это встроенная SRAM у каждого ядра, то есть она распределена прямо по чипу, без отдельного HBM-стека. Пропускная способность между ядрами на порядки выше, чем у внешних линков, а латентность — на порядки ниже. Для моделей, где узким местом становится межузловая коммуникация (например, тензорный и пайплайн-параллелизм в LLM), это потенциально меняет расклад.

Цена такого подхода — сложное охлаждение, нестандартный формфактор (система занимает стойку целиком), отдельный стек ПО поверх PyTorch и зависимость от одного вендора.

Кто это покупает

Основной известный заказчик — G42 из ОАЭ, совместно с Cerebras строящие серию суперкомпьютеров Condor Galaxy. Первые системы CG-1 и CG-2 собирали из CS-2, последующие объявленные — на CS-3. Кроме того, машины Cerebras стоят в нескольких национальных лабораториях и исследовательских центрах, где wafer-scale подход ценят за обучение редких архитектур и научные нагрузки — молекулярная динамика, CFD, sparse-модели.

Где выигрывает

Cerebras активно продвигает CS-3 для инференса крупных LLM, заявляя высокую throughput на токен за счёт того, что веса лежат в SRAM и не надо ходить в HBM. Для обучения фундаментальных моделей плюс — простота масштабирования: несколько CS-3 объединяются через фирменный MemoryX/SwarmX без ручной настройки параллелизма.

Это не замена NVIDIA для массового рынка, но в своей нише wafer-scale остаётся единственной живой альтернативой GPU-ферме.