История TPU показывает, что в AI решает не только модель, но и то, на какой вычислительной базе она вообще может жить экономически.
Глава переводит разговор с абстрактного "больше compute" на архитектурные решения о throughput, memory, energy, training versus inference и стоимости всей инфраструктуры.
Она особенно полезна там, где нужно объяснить, почему hardware choices меняют не только performance, но и допустимые product bets.
Практическая польза главы
Практика проектирования
Переводите знания о эволюции TPU и влиянии accelerator-инфраструктуры на AI-архитектуру в архитектурные решения по data flow, model serving и контрольным точкам качества.
Качество решений
Оценивайте систему через метрики модели и платформы одновременно: precision/recall, latency, drift, стоимость и операционные риски.
Interview articulation
Структурируйте ответ как цепочку data -> model -> serving -> monitoring, показывая где возникают ограничения и как вы ими управляете.
Trade-off framing
Явно фиксируйте компромиссы по эволюции TPU и влиянии accelerator-инфраструктуры на AI-архитектуру: скорость экспериментов, качество, explainability, resource budget и сложность поддержки.
Primary source
book_cube TPU series
Двухчастный разбор появления TPU и эволюции поколений.
Эта глава собрана на основе ваших постов и официальных материалов Google: как TPU возникли из инфраструктурного bottleneck, зачем Google понадобился ASIC-подход и как архитектура эволюционировала от inference-чипа к платформе для крупномасштабного обучения и обратно к inference-first в эпоху GenAI.
Почему TPU вообще появились
Дать кратный прирост price/performance для ML-инференса по сравнению с доступными CPU/GPU.
Сделать решение быстро и ввести в прод в сжатые сроки.
Сохранить экономическую эффективность при росте ML-нагрузок в продуктах Google.
Эволюция TPU по поколениям
TPU v1
Инференс- Разработка за ~15 месяцев от старта до deployment.
- 28-нм техпроцесс, 700 МГц, ~40 Вт.
- Ориентир: 92 TOPS INT8, заметный скачок энергоэффективности.
TPU v2
Обучение + инференс- Переход от «чипа для inference» к train+infer платформе.
- TPU Pod с сетью из 256 чипов.
- Порядок величин: 180 TFLOPS, 64 GB HBM (по источникам главы).
TPU v3
Рост производительности- Введено жидкостное охлаждение.
- Существенно повышены compute и memory bandwidth.
- Порядок величин: до 420 TFLOPS (по источникам главы).
TPU v4
Масштабирование pod-сетей- Оптическое circuit switching для ускорения межчиповой коммуникации.
- Фокус на распределенное обучение моделей крупного масштаба.
- Порядок величин: 275 TFLOPS на чип (по источникам главы).
TPU v5e / v5p
Оптимизация стоимости- Упор на cost-efficient training/inference.
- Улучшение энергоэффективности и масштабирования подов.
- Поддержка разреженности и более гибких workload-профилей.
TPU v6 Trillium
Скачок производительности- До 4.7x вычислительного роста на чип vs TPU v5e (по данным Google).
- Удвоение HBM-емкости/пропускной способности и interconnect bandwidth.
- На ~67% выше энергоэффективность vs TPU v5e (по данным Google).
TPU v7 Ironwood
Инференс эпохи GenAI- Возврат к идее inference-first, как у TPU v1, но на новом масштабе.
- До 9,216 чипов в liquid-cooled кластере.
- Порядок величин: 4,614 TFLOPS/чип, 192 GB HBM, 7.37 TB/s memory bandwidth.
TPU vs GPU: как читать сравнения
Compute и memory profile
GPU обычно универсальнее, TPU сильнее оптимизированы под тензорные workloads и тесно интегрированы с Google Cloud стеком.
Экономика
В ряде источников по training/inference TPU показывают лучшую стоимость на workload, но оценки сильно зависят от модели, batch size и уровня оптимизации.
Экосистема
CUDA-экосистема у NVIDIA шире; TPU выигрывают в сценариях, где команда уже строит пайплайн на TensorFlow/JAX и managed-инфраструктуре GCP.
Важный практический момент: сравнение FLOPS/токенов/доллара без общей методики легко дает искажения. Смотрите на модель, precision, batch, interconnect, software stack и ограничения по эксплуатации.
Ключевые развилки эволюции TPU
От продуктового bottleneck к собственному ASIC
TPU v1 появился не как исследовательский эксперимент, а как ответ на практический вопрос: как удержать latency и стоимость inference для сервисов Google при резком росте нейросетевых моделей.
Что это дало: С самого начала архитектура проектировалась под production-SLA и энергоэффективность в датацентре, а не только под пиковые бенчмарки.
Переход v2/v3: от inference-чипа к train+infer платформе
С ростом размеров моделей стало недостаточно ускорять только inference. TPU v2/v3 добавили поддержку крупного обучения, HBM-память и pod-подход для масштабирования.
Что это дало: Google получила возможность ускорять полный ML-цикл в едином стеке: от экспериментов и обучения до продакшн-инференса.
Переход v4/v5: фокус на межчиповую сеть и экономику подов
При распределенном обучении ограничением становится не только compute, но и interconnect. В эволюции TPU усилился акцент на network fabric, масштабирование pod-кластеров и TCO.
Что это дало: Оптимизация сместилась на уровень системы целиком: compute + memory + сеть + эксплуатация.
Переход v6/v7: новый inference-first в эпоху GenAI
GenAI-нагрузки снова выдвинули inference в центр: длинные контексты, высокие требования к throughput и предсказуемой задержке при масштабировании.
Что это дало: TPU v7 Ironwood фактически возвращает идею v1, но на уровне гигантских кластеров с современными memory/interconnect характеристиками.
Сильные и слабые стороны TPU-подхода
Плюсы
- Специализация под тензорные операции и глубокое обучение.
- Высокая энергоэффективность и сильная TCO-экономика в ряде AI-сценариев.
- Глубокая интеграция с Google Cloud, TensorFlow и JAX.
- Хорошая масштабируемость через TPU Pod-подход.
Ограничения
- Доступность в основном через Google Cloud.
- Меньшая универсальность для нетипичных вычислительных нагрузок.
- Экосистема инструментов в целом уже, чем вокруг CUDA.
- Риски vendor lock-in при глубокой привязке архитектуры к TPU-специфике.
Фреймворк выбора TPU в реальном проекте
Профиль workloads
Сигнал в пользу TPU: Повторяющиеся тензорные задачи (training/inference) и понятный путь оптимизации под TensorFlow/JAX.
Где возможна ошибка: Если много нестандартных kernels или смешанных задач, универсальность GPU может оказаться важнее.
Data center economics
Сигнал в пользу TPU: Критична цена токена/итерации и энергоэффективность на длинном горизонте эксплуатации.
Где возможна ошибка: Без корректной модели TCO сравнение по «цене часа железа» часто ведет к ошибочным выводам.
Сетевая архитектура
Сигнал в пользу TPU: Есть необходимость масштабировать обучение/инференс на pod-уровне с высоким вниманием к interconnect.
Где возможна ошибка: Если сеть и software stack не готовы, рост числа чипов не даст линейного ускорения.
Инженерная экосистема
Сигнал в пользу TPU: Команда уже использует GCP managed-сервисы и готова инвестировать в XLA/JAX/TensorFlow-профилирование.
Где возможна ошибка: При сильной зависимости от CUDA-инструментов и внешней мультиоблачной стратегии стоимость миграции может быть высокой.
Что взять в собственный System Design
- Планируйте hardware-strategy как часть архитектуры продукта, а не как «деталь инфраструктуры».
- Оптимизируйте не только model quality, но и стоимость цикла обучения/инференса.
- Закладывайте portability-слой, чтобы снижать риск vendor lock-in.
- Считайте эффективность end-to-end: модель + interconnect + software stack + эксплуатация.
- Проверяйте масштабируемость не на синтетике, а на полном контуре данных и продакшн-SLO.
References
book_cube #3822
Часть 1: предпосылки создания TPU и эволюция v1-v3.
book_cube #3823
Часть 2: эволюция v4-v7 и сравнение с GPU.
Google Cloud: TPU transformation (10-year look back)
Официальный обзор эволюции поколений TPU.
In-Datacenter Performance Analysis of a TPU (ISCA 2017)
Классическая статья по TPU v1 и сравнениям с CPU/GPU.
CloudExpat comparison
Сравнение экономической эффективности TPU v5e, H100 и Trainium (читайте критично, с учетом методики).
Все численные сравнения в этой главе приведены как ориентиры из указанных источников и требуют валидации под конкретный workload.
Связанные главы
- Зачем знать ML и AI инженеру - Контекст раздела и роль ML-мышления для архитекторов.
- CPU vs GPU - База по различиям ускорителей перед сравнением TPU/GPU.
- Google Global Network - Сетевой фундамент, важный для распределенных TPU/GPU-кластеров.
- Performance Engineering - Практики измерения latency/throughput и оптимизации под нагрузкой.
