System Design Space
Граф знанийНастройки

Обновлено: 24 марта 2026 г. в 14:56

История появления Google TPU и их эволюции

medium

Как Google прошла путь от TPU v1 для инференса до Ironwood: архитектурные решения, экономика AI-инфраструктуры и сравнение с GPU-подходом.

История TPU показывает, что в AI решает не только модель, но и то, на какой вычислительной базе она вообще может жить экономически.

Глава переводит разговор с абстрактного "больше compute" на архитектурные решения о throughput, memory, energy, training versus inference и стоимости всей инфраструктуры.

Она особенно полезна там, где нужно объяснить, почему hardware choices меняют не только performance, но и допустимые product bets.

Практическая польза главы

Практика проектирования

Переводите знания о эволюции TPU и влиянии accelerator-инфраструктуры на AI-архитектуру в архитектурные решения по data flow, model serving и контрольным точкам качества.

Качество решений

Оценивайте систему через метрики модели и платформы одновременно: precision/recall, latency, drift, стоимость и операционные риски.

Interview articulation

Структурируйте ответ как цепочку data -> model -> serving -> monitoring, показывая где возникают ограничения и как вы ими управляете.

Trade-off framing

Явно фиксируйте компромиссы по эволюции TPU и влиянии accelerator-инфраструктуры на AI-архитектуру: скорость экспериментов, качество, explainability, resource budget и сложность поддержки.

Primary source

book_cube TPU series

Двухчастный разбор появления TPU и эволюции поколений.

Открыть пост

Эта глава собрана на основе ваших постов и официальных материалов Google: как TPU возникли из инфраструктурного bottleneck, зачем Google понадобился ASIC-подход и как архитектура эволюционировала от inference-чипа к платформе для крупномасштабного обучения и обратно к inference-first в эпоху GenAI.

Почему TPU вообще появились

Дать кратный прирост price/performance для ML-инференса по сравнению с доступными CPU/GPU.

Сделать решение быстро и ввести в прод в сжатые сроки.

Сохранить экономическую эффективность при росте ML-нагрузок в продуктах Google.

Эволюция TPU по поколениям

2015

TPU v1

Инференс
  • Разработка за ~15 месяцев от старта до deployment.
  • 28-нм техпроцесс, 700 МГц, ~40 Вт.
  • Ориентир: 92 TOPS INT8, заметный скачок энергоэффективности.
2017

TPU v2

Обучение + инференс
  • Переход от «чипа для inference» к train+infer платформе.
  • TPU Pod с сетью из 256 чипов.
  • Порядок величин: 180 TFLOPS, 64 GB HBM (по источникам главы).
2018

TPU v3

Рост производительности
  • Введено жидкостное охлаждение.
  • Существенно повышены compute и memory bandwidth.
  • Порядок величин: до 420 TFLOPS (по источникам главы).
2021

TPU v4

Масштабирование pod-сетей
  • Оптическое circuit switching для ускорения межчиповой коммуникации.
  • Фокус на распределенное обучение моделей крупного масштаба.
  • Порядок величин: 275 TFLOPS на чип (по источникам главы).
2023

TPU v5e / v5p

Оптимизация стоимости
  • Упор на cost-efficient training/inference.
  • Улучшение энергоэффективности и масштабирования подов.
  • Поддержка разреженности и более гибких workload-профилей.
2024

TPU v6 Trillium

Скачок производительности
  • До 4.7x вычислительного роста на чип vs TPU v5e (по данным Google).
  • Удвоение HBM-емкости/пропускной способности и interconnect bandwidth.
  • На ~67% выше энергоэффективность vs TPU v5e (по данным Google).
2025

TPU v7 Ironwood

Инференс эпохи GenAI
  • Возврат к идее inference-first, как у TPU v1, но на новом масштабе.
  • До 9,216 чипов в liquid-cooled кластере.
  • Порядок величин: 4,614 TFLOPS/чип, 192 GB HBM, 7.37 TB/s memory bandwidth.

TPU vs GPU: как читать сравнения

Compute и memory profile

GPU обычно универсальнее, TPU сильнее оптимизированы под тензорные workloads и тесно интегрированы с Google Cloud стеком.

Экономика

В ряде источников по training/inference TPU показывают лучшую стоимость на workload, но оценки сильно зависят от модели, batch size и уровня оптимизации.

Экосистема

CUDA-экосистема у NVIDIA шире; TPU выигрывают в сценариях, где команда уже строит пайплайн на TensorFlow/JAX и managed-инфраструктуре GCP.

Важный практический момент: сравнение FLOPS/токенов/доллара без общей методики легко дает искажения. Смотрите на модель, precision, batch, interconnect, software stack и ограничения по эксплуатации.

Ключевые развилки эволюции TPU

От продуктового bottleneck к собственному ASIC

TPU v1 появился не как исследовательский эксперимент, а как ответ на практический вопрос: как удержать latency и стоимость inference для сервисов Google при резком росте нейросетевых моделей.

Что это дало: С самого начала архитектура проектировалась под production-SLA и энергоэффективность в датацентре, а не только под пиковые бенчмарки.

Переход v2/v3: от inference-чипа к train+infer платформе

С ростом размеров моделей стало недостаточно ускорять только inference. TPU v2/v3 добавили поддержку крупного обучения, HBM-память и pod-подход для масштабирования.

Что это дало: Google получила возможность ускорять полный ML-цикл в едином стеке: от экспериментов и обучения до продакшн-инференса.

Переход v4/v5: фокус на межчиповую сеть и экономику подов

При распределенном обучении ограничением становится не только compute, но и interconnect. В эволюции TPU усилился акцент на network fabric, масштабирование pod-кластеров и TCO.

Что это дало: Оптимизация сместилась на уровень системы целиком: compute + memory + сеть + эксплуатация.

Переход v6/v7: новый inference-first в эпоху GenAI

GenAI-нагрузки снова выдвинули inference в центр: длинные контексты, высокие требования к throughput и предсказуемой задержке при масштабировании.

Что это дало: TPU v7 Ironwood фактически возвращает идею v1, но на уровне гигантских кластеров с современными memory/interconnect характеристиками.

Сильные и слабые стороны TPU-подхода

Плюсы

  • Специализация под тензорные операции и глубокое обучение.
  • Высокая энергоэффективность и сильная TCO-экономика в ряде AI-сценариев.
  • Глубокая интеграция с Google Cloud, TensorFlow и JAX.
  • Хорошая масштабируемость через TPU Pod-подход.

Ограничения

  • Доступность в основном через Google Cloud.
  • Меньшая универсальность для нетипичных вычислительных нагрузок.
  • Экосистема инструментов в целом уже, чем вокруг CUDA.
  • Риски vendor lock-in при глубокой привязке архитектуры к TPU-специфике.

Фреймворк выбора TPU в реальном проекте

Профиль workloads

Сигнал в пользу TPU: Повторяющиеся тензорные задачи (training/inference) и понятный путь оптимизации под TensorFlow/JAX.

Где возможна ошибка: Если много нестандартных kernels или смешанных задач, универсальность GPU может оказаться важнее.

Data center economics

Сигнал в пользу TPU: Критична цена токена/итерации и энергоэффективность на длинном горизонте эксплуатации.

Где возможна ошибка: Без корректной модели TCO сравнение по «цене часа железа» часто ведет к ошибочным выводам.

Сетевая архитектура

Сигнал в пользу TPU: Есть необходимость масштабировать обучение/инференс на pod-уровне с высоким вниманием к interconnect.

Где возможна ошибка: Если сеть и software stack не готовы, рост числа чипов не даст линейного ускорения.

Инженерная экосистема

Сигнал в пользу TPU: Команда уже использует GCP managed-сервисы и готова инвестировать в XLA/JAX/TensorFlow-профилирование.

Где возможна ошибка: При сильной зависимости от CUDA-инструментов и внешней мультиоблачной стратегии стоимость миграции может быть высокой.

Что взять в собственный System Design

  • Планируйте hardware-strategy как часть архитектуры продукта, а не как «деталь инфраструктуры».
  • Оптимизируйте не только model quality, но и стоимость цикла обучения/инференса.
  • Закладывайте portability-слой, чтобы снижать риск vendor lock-in.
  • Считайте эффективность end-to-end: модель + interconnect + software stack + эксплуатация.
  • Проверяйте масштабируемость не на синтетике, а на полном контуре данных и продакшн-SLO.

References

Все численные сравнения в этой главе приведены как ориентиры из указанных источников и требуют валидации под конкретный workload.

Связанные главы

  • Зачем знать ML и AI инженеру - Контекст раздела и роль ML-мышления для архитекторов.
  • CPU vs GPU - База по различиям ускорителей перед сравнением TPU/GPU.
  • Google Global Network - Сетевой фундамент, важный для распределенных TPU/GPU-кластеров.
  • Performance Engineering - Практики измерения latency/throughput и оптимизации под нагрузкой.

Чтобы отмечать прохождение, включи трекинг в Настройки