История AI-ускорителей NVIDIA важна не как хроника новых GPU, а как пример того, как программная экосистема превращает железо в платформу.
Глава показывает путь от CUDA и GPU computing к Tensor Cores, DGX, H100, Blackwell и rack-scale инфраструктуре для GenAI.
Она особенно полезна там, где выбор ускорителя, межсоединения, памяти и стоимости токена становится частью архитектуры ML-продукта.
Практическая польза главы
Стратегия ускорителей
Связать выбор GPU с профилем модели, памятью, interconnect и стоимостью вывода.
Экосистема софта
Понять, почему CUDA, библиотеки и tooling становятся частью архитектурного решения, а не просто деталями реализации.
Экономика платформы
Обсуждать GPU как ресурс платформы: capacity, utilization, quotas и cost per token.
Архитектурный аргумент
Добавить в ML-ответы зрелую историю про compute, память, сеть и эксплуатацию ускорителей.
Primary source
CUDA as the starting point
Историю AI-ускорителей NVIDIA лучше читать не с отдельного GPU, а с программной модели CUDA и экосистемы вокруг неё.
NVIDIA не начинала как «AI-chip company». Её AI-ускорители выросли из графических GPU, программируемой модели CUDA, библиотек для численных расчётов, дата-центровых серверов и всё более плотной связки compute, памяти и сети. История важна для системного дизайна по одной причине: она показывает, как железо становится платформой, а платформа начинает диктовать архитектуру ML-продукта — и его себестоимость.
Почему NVIDIA стала центром AI-инфраструктуры
Превратить массово-параллельный GPU из графического устройства в универсальную вычислительную платформу для научных расчётов и ML.
Держать матричные операции глубокого обучения быстрыми там, где модель уже не помещается в один чип: в сервере, стойке и кластере.
Удержать преимущество не на одном железе: экосистема CUDA, библиотеки, фреймворки, серверы DGX и сетевая фабрика повышают цену ухода к конкуренту.
Эволюция NVIDIA AI-ускорителей
CUDA
Programmable GPU computing- NVIDIA открыла разработчикам программную модель CUDA: к графическому конвейеру добавился прямой путь к параллельным вычислениям общего назначения.
- Ставка была не на отдельный ускоритель, а на экосистему: язык, компилятор, драйверы, библиотеки и инструменты профилирования. Это и привязывает разработчика к платформе.
- Именно эта база позже позволила ML-фреймворкам воспринимать GPU как естественную среду выполнения.
AlexNet moment
Deep learning breakthrough- AlexNet показал, что глубокие нейронные сети можно обучать практически полезно на GPU: в статье использовались две NVIDIA GTX 580.
- После ImageNet 2012 спрос сместился от исследовательских прототипов к инфраструктуре: GPU стал базовым ответом на рост .
- С этого момента software stack вокруг CUDA стал стратегическим активом, а не побочной деталью железа.
Tesla P100 / DGX-1
Data center AI server- Pascal P100 объединил FP16, HBM2 и для дата-центровых ML-нагрузок.
- DGX-1 упаковал восемь P100 в готовую систему для глубокого обучения и сделал ускоритель частью серверного продукта.
- Фокус сместился от отдельной карты к законченной платформе: железо, софт, драйверы, библиотеки и поддерживаемая конфигурация.
Volta V100
Tensor Cores- Volta V100 ввёл Tensor Cores и сделал матричное умножение первого класса отдельным аппаратным путём.
- GPU начал превращаться в AI-ускоритель в строгом смысле: общая программируемость осталась, но ключевой ML-путь получил специализированные блоки.
- Это стало одной из главных развилок между обычным GPU computing и современной архитектурой AI-ускорителей NVIDIA.
Turing T4
Inference at scale- T4 сместил внимание к экономике : модели стали жить в online-пути продукта, а не только в тренировочных кластерах, где простой железа никто не считает.
- Поддержка более низких точностей подняла число запросов на ватт и на доллар — то есть напрямую снизила себестоимость ответа.
- Для архитектуры это важный поворот: критерием стала не только скорость обучения, а цена рабочего ответа под нагрузкой.
Ampere A100
Elastic data center GPU- A100 добавил TF32, структурную разреженность и Multi-Instance GPU, чтобы одна физическая GPU могла безопаснее делиться между несколькими нагрузками.
- Ускоритель стал ближе к облачному ресурсу: его нужно планировать, изолировать, загружать и считать в терминах юнит-экономики (unit economics).
- Для ML-платформ это означало более зрелый разговор о пулах ускорителей, очередях, квотах и утилизации.
Hopper H100
Transformer era- H100 появился уже в мире трансформеров: NVIDIA выделила Transformer Engine и FP8 как путь ускорения больших моделей.
- , новый -контур и рост пропускной способности памяти стали такими же важными, как пиковые FLOPS.
- Архитектурный вопрос сместился к обучению и обслуживанию моделей, где память, сеть и числовая точность решают не меньше, чем compute.
Blackwell / GB200 NVL72
Rack-scale GenAI- Blackwell сделал стойку и NVL-системы частью базовой единицы проектирования GenAI-инфраструктуры.
- NVIDIA продвигает FP4 и сильную связку GPU, CPU, , NVSwitch и сетевой фабрики как ответ на стоимость обучения и вывода больших моделей.
- На этом этапе NVIDIA продаёт уже не только GPU, а почти полный шаблон AI factory: compute, networking, systems, software.
Vera Rubin
Vendor roadmap- Vera Rubin стоит читать как текущую дорожную карту NVIDIA, а не как уже универсально доступную базу для всех проектов.
- Главная линия продолжает Blackwell: системы масштаба стойки и POD, высокая связность ускорителей, память и сеть как единый ресурс.
- Для архитекторов важен не конкретный SKU, а направление: AI-ускоритель всё чаще проектируется как часть фабрики вывода, а не отдельная карта в сервере.
NVIDIA и TPU: как читать сравнения
Экосистема
NVIDIA сильна широкой CUDA-экосистемой, библиотеками и поддержкой в разных облаках и собственной инфраструктуре (on-prem). TPU сильнее там, где команда уже живёт внутри Google Cloud, JAX и TensorFlow.
Переносимость
GPU-путь обычно проще переносить между поставщиками инфраструктуры, но CUDA тоже создаёт зависимость. TPU даёт более специализированную платформу с более явной привязкой к GCP.
Системная единица
Сравнивать надо не «чип против чипа», а систему: память, межсоединение, планировщик, софт, загрузку, поддержку фреймворков и цену полезного токена или итерации.
Практический вывод: сравнение ускорителей начинается с профиля модели, памяти, точности, размера пакета, interconnect, доступной ёмкости и команды, которая будет это эксплуатировать. Один ориентир сравнения (benchmark) редко отвечает на вопрос архитектуры.
Ключевые развилки эволюции NVIDIA
GPU стал программируемым вычислителем
CUDA превратила NVIDIA GPU в платформу для массово-параллельных задач. Это был фундаментальный шаг: разработчик получил стабильный путь к ускорению, а не только графический API.
Что это дало: Будущий AI-рынок вырос не из одного чипа, а из связки hardware + software, где инструменты и библиотеки оказались частью архитектуры.
Tensor Cores превратили GPU в AI-ускоритель
Volta V100 сохранил универсальность GPU, но добавил специализированный аппаратный путь для матричных операций глубокого обучения.
Что это дало: К универсальности GPU добавился второй аргумент в конкуренции — специализированная производительность под нейросетевой профиль нагрузки (neural workloads).
DGX и межсоединение NVLink сдвинули фокус на систему
Когда модели стали расти, узким местом оказалась уже не сама GPU, а , межсоединение, топология сервера и способ распределять нагрузку между ускорителями.
Что это дало: Архитектурная единица постепенно выросла от карты до сервера, стойки и связанного кластера.
Экономика вывода (inference) стала равной экономике обучения
GenAI сделал долгоживущей нагрузкой с постоянной ценой токена, жёсткой и требованиями к .
Что это дало: Выбор ускорителя стал продуктовым решением: он напрямую влияет на себестоимость, целевой уровень сервиса (SLO) и возможность масштабировать AI-функцию.
Сильные и слабые стороны NVIDIA-подхода
Плюсы
- Самая широкая экосистема библиотек, фреймворков и инструментария вокруг AI-ускорителей.
- Хорошая переносимость между облаками, собственной (on-prem) и гибридной инфраструктурой по сравнению с более закрытыми ускорителями.
- Портфель от inference-карт до систем масштаба стойки для обучения и GenAI-вывода.
- Сильная связка железа, CUDA, NCCL, TensorRT, Triton, DGX и сетевых решений.
Ограничения
- Высокая стоимость, дефицитность и требования к питанию, охлаждению и дата-центровой готовности.
- CUDA снижает риск экосистемной пустоты, но создаёт собственную форму зависимости от вендора (vendor lock-in).
- Без качественного планирования и профилирования GPU легко недозагрузить и получить плохую экономику.
- Системы масштаба стойки усложняют эксплуатацию: сеть, память, диспетчеризация задач, наблюдаемость и планирование ёмкости (capacity planning) становятся частью ML-архитектуры.
Фреймворк выбора NVIDIA GPU в реальном проекте
Профиль модели
Сигнал в пользу NVIDIA: Много разных моделей, нестандартные ядра, PyTorch-first стек, потребность быстро использовать новые библиотеки и оптимизации.
Где возможна ошибка: Если профиль нагрузки (workload) хорошо ложится на более специализированную платформу, универсальность GPU может оказаться дороже, чем нужно.
Память и interconnect
Сигнал в пользу NVIDIA: Большие модели, длинный контекст, тензорный параллелизм (tensor parallelism) и необходимость масштабировать несколько GPU как одну рабочую систему.
Где возможна ошибка: Без профилирования памяти, топологии межсоединений NVLink/NVSwitch и коммуникаций добавление GPU быстро перестаёт давать линейный выигрыш.
Экосистема команды
Сигнал в пользу NVIDIA: Команда уже умеет работать с CUDA-профилированием, PyTorch, Triton, TensorRT-LLM, NCCL и инфраструктурой GPU-пулов.
Где возможна ошибка: Без навыка держать GPU загруженными покупка дорогих ускорителей превращается в дорогой idle time.
Экономика вывода
Сигнал в пользу NVIDIA: Нужно управлять размером пакета (batch size), спекулятивным декодированием, квантованием, маршрутизацией и стоимостью токена на разных классах моделей.
Где возможна ошибка: Сравнение по цене часа железа обманчиво: считать нужно полную стоимость владения, утилизацию, энергию, сеть, память и целевой уровень сервиса (SLO).
Что взять в собственные архитектурные решения
- Проектируйте AI-ускорители как часть продуктовой архитектуры: стоимость токена, бюджет задержек и доступность ёмкости влияют на UX.
- Сравнивайте GPU, TPU и другие ускорители на вашей модели, batch size, точности, памяти и interconnect, а не по маркетинговым FLOPS.
- Заранее отделяйте portable application layer от vendor-specific optimization layer.
- Считайте утилизацию ускорителей как продуктовую метрику платформы: idle GPU часто дороже плохого API.
- Держите CPU, память, сеть и storage в модели производительности: GPU редко является единственным узким местом.
Источники
NVIDIA: What is CUDA?
Официальный обзор CUDA и роли программной модели в GPU computing.
AlexNet paper
ImageNet Classification with Deep Convolutional Neural Networks, где GPU стал заметным практическим фактором глубокого обучения.
NVIDIA DGX-1 / Tesla P100
Анонс DGX-1 и Pascal P100 как ранней дата-центровой системы для глубокого обучения.
NVIDIA Volta V100
Анонс Volta V100 и Tensor Cores как важной аппаратной развилки для AI.
NVIDIA DGX A100
DGX A100, Ampere, Multi-Instance GPU и дата-центровая эластичность ускорителей.
NVIDIA Hopper H100
Hopper, H100, Transformer Engine, FP8 и эпоха крупных трансформеров.
NVIDIA Blackwell
Blackwell, GB200 NVL72 и подход в масштабе целой стойки к современной AI-инфраструктуре.
NVIDIA Vera Rubin
Текущая дорожная карта NVIDIA для следующего поколения agentic AI-инфраструктуры.
Данные о будущих поколениях ускорителей NVIDIA стоит читать как vendor roadmap и перепроверять перед проектными решениями.
Связанные главы
- ML Engineering: как проектировать модели, конвейеры и рабочий контур - Контекст раздела и место ускорителей в продакшене ML.
- История появления Google TPU и их эволюции - Соседняя история про специализированный путь Google.
- CPU vs GPU - Базовая аппаратная рамка перед сравнением GPU, TPU и других ускорителей.
- Сервинг моделей и архитектура вывода - Практический контекст задержки, пакетирования, маршрутизации и стоимости вывода.
- Performance Engineering - Как измерять узкие места, хвостовую задержку и пропускную способность.
