История AI-ускорителей NVIDIA важна не как хроника новых GPU, а как пример того, как программная экосистема превращает железо в платформу.
Глава показывает путь от CUDA и GPU computing к Tensor Cores, DGX, H100, Blackwell и rack-scale инфраструктуре для GenAI.
Она особенно полезна там, где выбор ускорителя, межсоединения, памяти и стоимости токена становится частью архитектуры ML-продукта.
Практическая польза главы
Стратегия ускорителей
Связать выбор GPU с профилем модели, памятью, interconnect и стоимостью вывода.
Экосистема софта
Понять, почему CUDA, библиотеки и tooling становятся частью архитектурного решения, а не просто деталями реализации.
Экономика платформы
Обсуждать GPU как ресурс платформы: capacity, utilization, quotas и cost per token.
Архитектурный аргумент
Добавить в ML-ответы зрелую историю про compute, память, сеть и эксплуатацию ускорителей.
Primary source
CUDA as the starting point
Историю AI-ускорителей NVIDIA лучше читать не с отдельного GPU, а с программной модели CUDA и экосистемы вокруг неё.
NVIDIA не начинала как “AI-chip company”. Её AI-ускорители выросли из графических GPU, программируемой модели CUDA, библиотек для численных расчётов, дата-центровых серверов и всё более плотной связки compute, памяти и сети. Поэтому история NVIDIA важна для системного дизайна: она показывает, как железо становится платформой, а платформа начинает диктовать архитектуру ML-продукта.
Почему NVIDIA стала центром AI-инфраструктуры
Превратить массово-параллельный GPU из графического устройства в универсальную вычислительную платформу для научных расчётов и ML.
Сделать матричные операции глубокого обучения быстрыми не только на одном чипе, но и в сервере, стойке и кластере.
Закрепить преимущество не только железом, но и экосистемой CUDA, библиотеками, фреймворками, серверами DGX и сетевой фабрикой.
Эволюция NVIDIA AI-ускорителей
CUDA
Programmable GPU computing- NVIDIA открыла разработчикам программную модель CUDA: GPU стал не только устройством для графики, но и платформой для параллельных вычислений.
- Главная ставка была не в отдельном ускорителе, а в экосистеме: язык, компилятор, драйверы, библиотеки и инструменты профилирования.
- Именно эта база позже позволила ML-фреймворкам воспринимать GPU как естественную среду выполнения.
AlexNet moment
Deep learning breakthrough- AlexNet показал, что глубокие нейронные сети можно обучать практически полезно на GPU: в статье использовались две NVIDIA GTX 580.
- После ImageNet 2012 GPU стал не просто ускорителем исследований, а инфраструктурным ответом на рост deep learning.
- С этого момента software stack вокруг CUDA стал стратегическим активом, а не побочной деталью железа.
Tesla P100 / DGX-1
Data center AI server- Pascal P100 объединил FP16, HBM2 и для дата-центровых ML-нагрузок.
- DGX-1 упаковал восемь P100 в готовую систему для deep learning и сделал ускоритель частью серверного продукта.
- Фокус сместился от отдельной карты к законченной платформе: железо, софт, драйверы, библиотеки и поддерживаемая конфигурация.
Volta V100
Tensor Cores- Volta V100 ввёл Tensor Cores и сделал матричное умножение первого класса отдельным аппаратным путём.
- GPU начал превращаться в AI-ускоритель в строгом смысле: общая программируемость осталась, но ключевой ML-путь получил специализированные блоки.
- Это стало одной из главных развилок между обычным GPU computing и современной архитектурой AI-ускорителей NVIDIA.
Turing T4
Inference at scale- T4 сместил внимание к экономике : больше моделей стали жить не только в тренировочных кластерах, но и в online-пути продукта.
- Аппаратная поддержка более низких точностей помогла обслуживать больше запросов на ватт и на доллар.
- Для архитектуры это важный поворот: ускоритель начал оцениваться не только по скорости обучения, но и по стоимости рабочего ответа.
Ampere A100
Elastic data center GPU- A100 добавил TF32, структурную разреженность и Multi-Instance GPU, чтобы одна физическая GPU могла безопаснее делиться между несколькими нагрузками.
- Ускоритель стал ближе к облачному ресурсу: его нужно планировать, изолировать, загружать и считать по unit economics.
- Для ML-платформ это означало более зрелый разговор о пулах ускорителей, очередях, квотах и утилизации.
Hopper H100
Transformer era- H100 появился уже в мире трансформеров: NVIDIA выделила Transformer Engine и FP8 как путь ускорения больших моделей.
- HBM3, новый NVLink/NVSwitch-контур и рост пропускной способности памяти стали такими же важными, как пиковые FLOPS.
- Архитектурный вопрос сместился к обучению и обслуживанию моделей, где память, сеть и числовая точность решают не меньше, чем compute.
Blackwell / GB200 NVL72
Rack-scale GenAI- Blackwell сделал стойку и NVL-системы частью базовой единицы проектирования GenAI-инфраструктуры.
- NVIDIA продвигает FP4 и сильную связку GPU, CPU, NVLink, NVSwitch и сетевой фабрики как ответ на стоимость обучения и вывода больших моделей.
- На этом этапе NVIDIA продаёт уже не только GPU, а почти полный шаблон AI factory: compute, networking, systems, software.
Vera Rubin
Vendor roadmap- Vera Rubin стоит читать как текущую дорожную карту NVIDIA, а не как уже универсально доступную базу для всех проектов.
- Главная линия продолжает Blackwell: rack/POD-scale системы, высокая связность ускорителей, память и сеть как единый ресурс.
- Для архитекторов важен не конкретный SKU, а направление: AI-ускоритель всё чаще проектируется как часть фабрики вывода, а не отдельная карта в сервере.
NVIDIA и TPU: как читать сравнения
Экосистема
NVIDIA сильна широкой CUDA-экосистемой, библиотеками и поддержкой в разных облаках и on-prem. TPU сильнее там, где команда уже живёт внутри Google Cloud, JAX и TensorFlow.
Переносимость
GPU-путь обычно проще переносить между поставщиками инфраструктуры, но CUDA тоже создаёт зависимость. TPU даёт более специализированную платформу с более явной привязкой к GCP.
Системная единица
Сравнивать надо не «чип против чипа», а систему: память, межсоединение, планировщик, софт, загрузку, поддержку фреймворков и цену полезного токена или итерации.
Практический вывод: сравнение ускорителей начинается с профиля модели, памяти, точности, размера пакета, interconnect, доступной capacity и команды, которая будет это эксплуатировать. Один benchmark редко отвечает на вопрос архитектуры.
Ключевые развилки эволюции NVIDIA
GPU стал программируемым вычислителем
CUDA превратила NVIDIA GPU в платформу для массово-параллельных задач. Это был фундаментальный шаг: разработчик получил стабильный путь к ускорению, а не только графический API.
Что это дало: Будущий AI-рынок вырос не из одного чипа, а из связки hardware + software, где инструменты и библиотеки оказались частью архитектуры.
Tensor Cores превратили GPU в AI-ускоритель
Volta V100 сохранил универсальность GPU, но добавил специализированный аппаратный путь для матричных операций глубокого обучения.
Что это дало: Это позволило NVIDIA конкурировать не только универсальностью, но и специализированной производительностью для neural workloads.
DGX и NVLink сдвинули фокус на систему
Когда модели стали расти, ограничением оказалась не только одна GPU, но и , межсоединение, топология сервера и способ распределять нагрузку между ускорителями.
Что это дало: Архитектурная единица постепенно выросла от карты до сервера, стойки и связанного кластера.
Inference economics стала равной training economics
GenAI сделал долгоживущей нагрузкой с постоянной ценой токена, жёсткой и требованиями к .
Что это дало: Выбор ускорителя стал продуктовым решением: он напрямую влияет на себестоимость, SLO и возможность масштабировать AI-функцию.
Сильные и слабые стороны NVIDIA-подхода
Плюсы
- Самая широкая экосистема библиотек, фреймворков и tooling вокруг AI-ускорителей.
- Хорошая переносимость между облаками, on-prem и гибридной инфраструктурой по сравнению с более закрытыми ускорителями.
- Портфель от inference-карт до rack-scale систем для обучения и GenAI-вывода.
- Сильная связка железа, CUDA, NCCL, TensorRT, Triton, DGX и сетевых решений.
Ограничения
- Высокая стоимость, дефицитность и требования к питанию, охлаждению и дата-центровой готовности.
- CUDA снижает риск экосистемной пустоты, но создаёт собственную форму vendor lock-in.
- Без качественного планирования и профилирования GPU легко недозагрузить и получить плохую экономику.
- Rack-scale системы усложняют эксплуатацию: сеть, память, scheduling, observability и capacity planning становятся частью ML-архитектуры.
Фреймворк выбора NVIDIA GPU в реальном проекте
Профиль модели
Сигнал в пользу NVIDIA: Много разных моделей, нестандартные ядра, PyTorch-first стек, потребность быстро использовать новые библиотеки и оптимизации.
Где возможна ошибка: Если workload хорошо ложится на более специализированную платформу, универсальность GPU может оказаться дороже, чем нужно.
Память и interconnect
Сигнал в пользу NVIDIA: Большие модели, длинный контекст, tensor parallelism и необходимость масштабировать несколько GPU как одну рабочую систему.
Где возможна ошибка: Без профилирования памяти, топологии NVLink/NVSwitch и коммуникаций добавление GPU быстро перестаёт давать линейный выигрыш.
Экосистема команды
Сигнал в пользу NVIDIA: Команда уже умеет работать с CUDA-профилированием, PyTorch, Triton, TensorRT-LLM, NCCL и инфраструктурой GPU-пулов.
Где возможна ошибка: Если команда не умеет держать GPU загруженными, покупка дорогих ускорителей превращается в дорогой idle time.
Экономика вывода
Сигнал в пользу NVIDIA: Нужно управлять batch size, speculative decoding, quantization, routing и стоимостью токена на разных классах моделей.
Где возможна ошибка: Сравнение по цене часа железа обманчиво: считать нужно полную стоимость владения, утилизацию, энергию, сеть, память и SLO.
Что взять в собственные архитектурные решения
- Проектируйте AI-ускорители как часть product architecture: стоимость токена, latency budget и доступность capacity влияют на UX.
- Сравнивайте GPU, TPU и другие ускорители на вашей модели, batch size, точности, памяти и interconnect, а не по маркетинговым FLOPS.
- Заранее отделяйте portable application layer от vendor-specific optimization layer.
- Считайте утилизацию ускорителей как продуктовую метрику платформы: idle GPU часто дороже плохого API.
- Держите CPU, память, сеть и storage в модели производительности: GPU редко является единственным узким местом.
Источники
NVIDIA: What is CUDA?
Официальный обзор CUDA и роли программной модели в GPU computing.
AlexNet paper
ImageNet Classification with Deep Convolutional Neural Networks, где GPU стал заметным практическим фактором deep learning.
NVIDIA DGX-1 / Tesla P100
Анонс DGX-1 и Pascal P100 как ранней дата-центровой системы для deep learning.
NVIDIA Volta V100
Анонс Volta V100 и Tensor Cores как важной аппаратной развилки для AI.
NVIDIA DGX A100
DGX A100, Ampere, Multi-Instance GPU и дата-центровая эластичность ускорителей.
NVIDIA Hopper H100
Hopper, H100, Transformer Engine и FP8 в эпоху крупных трансформеров.
NVIDIA Blackwell
Blackwell, GB200 NVL72 и rack-scale подход к современной AI-инфраструктуре.
NVIDIA Vera Rubin
Текущая дорожная карта NVIDIA для следующего поколения agentic AI-инфраструктуры.
Данные о будущих поколениях ускорителей NVIDIA стоит читать как vendor roadmap и перепроверять перед проектными решениями.
Связанные главы
- ML Engineering: как проектировать модели, конвейеры и рабочий контур - Контекст раздела и место ускорителей в production ML.
- История появления Google TPU и их эволюции - Соседняя история про специализированный путь Google.
- CPU vs GPU - Базовая аппаратная рамка перед сравнением GPU, TPU и других ускорителей.
- Сервинг моделей и архитектура вывода - Практический контекст latency, batching, routing и стоимости вывода.
- Performance Engineering - Как измерять узкие места, хвостовую задержку и пропускную способность.
