VAST Data: DASE-архитектура и CUDA AI OS для масштабных GPU-кластеров
Когда сотни тысяч GPU обращаются к одному хранилищу одновременно, классические подходы — шардирование данных, разбивка на namespace’ы, ручная балансировка нагрузки — превращаются в административный ад. VAST Data строила свою архитектуру именно с прицелом на то, чтобы этого ада не было.
Что такое DASE
DASE расшифровывается как disaggregated shared everything. Идея в том, что вычислительный слой (серверы доступа к данным) полностью отделён от слоя хранения (NVMe-устройства), а оба слоя масштабируются независимо горизонтально. При этом все узлы видят одно единое пространство имён без какого-либо шардирования.
На практике это значит: добавляешь ещё десяток серверов H100 в кластер — хранилище не нужно перенастраивать, данные не нужно перекладывать. NVMe-over-fabric (NVMe-oF) обеспечивает низкую латентность при обращении к данным по сети, сравнимую с локальным NVMe. Для задач distributed training и inference, где модели весят сотни гигабайт и загружаются одновременно на тысячи GPU, это принципиально.
Горизонтальное масштабирование без шардирования — это не маркетинговый тезис, а архитектурное решение с конкретными следствиями: нет hotspot’ов, нет ручного rebalancing’а, нет операций split/merge при росте кластера.
CUDA AI OS
Параллельно с финансовым раундом VAST Data анонсировала CUDA-ускоренный AI OS — программный слой, который запускается непосредственно на GPU-серверах NVIDIA и выполняет часть операций с данными прямо на GPU, минуя CPU. Речь идёт о предобработке датасетов, компрессии, индексировании векторных эмбеддингов — задачах, которые традиционно лежат на CPU и становятся узким местом при работе с петабайтными датасетами.
Конкретных цифр производительности CUDA AI OS компания пока не публиковала, но направление понятное: вместо того чтобы гонять данные через CPU-буферы, обрабатываем их там, где и так сосредоточены вычисления — на GPU.
Почему это важно для AI-инфраструктуры
Сейчас типичная проблема больших GPU-кластеров — storage bottleneck. GPU простаивают, пока ждут следующий batch данных. Чем плотнее кластер (тысячи H100 или B200), тем острее проблема. Архитектура VAST Data адресует именно это: NVMe-oF с единым namespace убирает I/O-узкие места на уровне сети хранения, а CUDA AI OS убирает их на уровне CPU.
Компания сообщает о $500 млн ARR и положительной операционной марже — это редкость для инфраструктурных стартапов такого масштаба. Но важнее то, что за этими цифрами стоит реальная технологическая дифференциация: крупные облачные провайдеры и HPC-операторы выбирают VAST не из-за маркетинга, а потому что при переходе за отметку 10 000 GPU альтернативы начинают сыпаться под нагрузкой.
Для тех, кто строит или планирует on-premise AI-кластеры под fine-tuning и inference: архитектура хранилища — не менее важный выбор, чем выбор GPU. DASE и NVMe-oF — это один из немногих подходов, который масштабируется без архитектурных переделок при росте парка ускорителей.