Google Cloud A5X: bare metal на Vera Rubin NVL72 до 960 000 GPU
На Google Cloud Next 2026 Google представил следующее поколение своей AI-инфраструктуры — A5X bare metal инстансы на базе NVIDIA Vera Rubin NVL72. Цифры заявлены впечатляющие: кластеры до 80 000 GPU на одном сайте и до 960 000 GPU в мультисайтовых конфигурациях. Для сравнения — это масштаб, о котором год назад говорили только применительно к гипотетическим суперкомпьютерам.
Архитектура: что нового в A5X
В основе A5X — NVIDIA Vera Rubin NVL72, следующее поколение после Blackwell. NVL72 означает 72 GPU в одной NVLink-домене, что позволяет им работать с общим пулом HBM без выхода на хост-шину. Для distributed training это принципиально: меньше межузловых коммуникаций, выше утилизация вычислительных ресурсов.
Сетевая фабрика — ConnectX-9 NIC в связке с Virgo. Virgo — это собственная разработка Google для внутриклассовых interconnect, которая обеспечивает полосу пропускания, достаточную для того, чтобы 80 000 GPU на одном сайте работали как единый вычислительный ресурс, а не как набор изолированных серверов.
Ключевой момент — bare metal без гипервизора. Это прямой доступ к железу: никакого overhead от виртуализации, полный контроль над NUMA-топологией и сетевыми настройками. Именно это нужно для frontier AI workloads, где каждый лишний микросекунды задержки складывается в реальные часы времени на обучение.
Производительность: 10x — в каком смысле
Google заявляет 10x снижение стоимости инференса на токен и 10x рост пропускной способности на мегаватт по сравнению с предыдущим поколением. Это не просто маркетинговые цифры — за ними стоит комбинация факторов: более эффективная архитектура Vera Rubin, более плотная упаковка GPU в NVL72 и оптимизация сетевой фабрики.
Снижение стоимости инференса на токен напрямую влияет на экономику AI-продуктов. Если раньше запуск большой модели в production требовал либо огромного бюджета, либо серьёзных компромиссов по качеству, то 10x улучшение меняет расчёты для многих команд.
Мультисайтовые конфигурации
960 000 GPU в мультисайте — это, пожалуй, самая нестандартная часть анонса. Google не уточняет детали реализации: как именно работает межсайтовый interconnect, какова задержка между сайтами и насколько такая конфигурация применима для синхронного обучения, а не только для inference-шардирования.
Для обучения frontier-моделей синхронная коммуникация между сайтами — серьёзный вызов. Скорее всего, мультисайтовые конфигурации на 960K GPU ориентированы на асинхронные рабочие нагрузки или pipeline parallelism с длинными микробатчами, где задержка между сайтами менее критична.
Для кого это актуально
A5X в первую очередь интересен тем, кто уже работает с Google Cloud и планирует масштабирование тренировочных кластеров. Bare metal формат снимает ограничения виртуализации, а масштаб платформы позволяет не думать об инфраструктурном потолке при росте требований к модели. Доступность инстансов Google пока не анонсировал — ждём деталей.