Intel Arc Pro B70/B65: 4-GPU система для 120B-моделей в MLPerf v6.0

intelarc-promlperfbenchmarksinferencexeon

Intel подал свой первый сабмишн с дискретными GPU Arc Pro в MLPerf Inference v6.0. Конфигурация нестандартная: четыре Arc Pro B70 или B65 в паре с Xeon 6, суммарно 128 ГБ видеопамяти — и эта система прошла валидацию на задаче GPT-OSS 120B в категории Offline. Разбираемся, что здесь интересного с инженерной точки зрения.

Что такое Arc Pro B70 и B65

Arc Pro — профессиональная линейка Intel на базе архитектуры Battlemage. B70 и B65 — это дискретные GPU с акцентом на ISV-сертификацию и enterprise-use cases, а не на gaming. Основные характеристики, релевантные для AI-инференса:

  • 32 ГБ GDDR6 на борту каждого GPU (B70) — в сумме 4×32 = 128 ГБ
  • XMX-матрицы (Intel Matrix Extensions) с поддержкой INT8 и BF16 — специализированные блоки для матричных операций, аналог Tensor Cores у NVIDIA
  • Поддержка PCIe 5.0 и прямая интеграция с Xeon 6 через Compute Express Link (CXL) для снижения latency при передаче данных между CPU и GPU

Почему 4-GPU, а не 1 большой GPU

120B-модель в BF16 занимает примерно 240 ГБ памяти. Один Arc Pro B70 — 32 ГБ. Четыре GPU дают 128 ГБ, что достаточно для загрузки модели в INT4-квантизации (120B × 0,5 байта ≈ 60 ГБ) с запасом для KV-кэша.

Это принципиально другой подход по сравнению с тем, что делают NVIDIA или AMD: вместо одного монструозного GPU с огромным HBM-стеком Intel собирает систему из нескольких доступных GPU средней мощности. Координация между ними — задача software-стека, в данном случае OpenVINO в связке с llama.cpp.

Роль Xeon 6 в конфигурации

В сабмишне Intel не случайно выбрал Xeon 6 в качестве хост-CPU. Xeon 6 поддерживает PCIe 5.0 с достаточным количеством линий для четырёх GPU без деградации пропускной способности. Кроме того, Intel использовал AMX (Advanced Matrix Extensions) в Xeon 6 для offload части операций на CPU — в первую очередь prefill-фазы с длинными промптами, где CPU-parallelism хорошо масштабируется.

Гибридный CPU+GPU инференс — это не обходной манёвр, а намеренная архитектурная ставка Intel: они позиционируют Xeon+Arc как единую платформу, а не как GPU отдельно от CPU.

Контекст: зачем это нужно

Сабмишн Intel в MLPerf — не про рекорды производительности. В абсолютных числах Arc Pro уступает MI355X и GB300 на порядок. Но это и не цель. Интереснее другое: это первый раз, когда кто-то показал воспроизводимый MLPerf-результат на 120B-модели с потребительским классом дискретных GPU.

Для команд, которым нужен on-premise инференс крупной модели, но бюджет не позволяет H100 или MI300X, это сигнал: есть путь через несколько доступных GPU при правильном software-стеке. Воспроизводимость гарантирована открытым сабмишном в репозитории MLCommons.

Intel явно строит нарратив: Arc Pro — это не игровое железо в enterprise-обёртке, а полноценная AI-платформа для тех задач, где нет смысла переплачивать за datacentre GPU.