История TPU важна не только как история железа, но и как пример того, как экономика вычислений меняет архитектуру ML-систем.
Глава показывает, почему специализация ускорителей, разделение обучения и вывода и ограничения платформы напрямую влияют на инженерные решения вокруг моделей.
Она особенно полезна там, где выбор железа и стоимость рабочего контура становятся частью архитектурного компромисса.
Практическая польза главы
Аппаратный взгляд
Понять, как выбор ускорителей меняет системный дизайн вокруг моделей.
Экономика вычислений
Связать стратегию ускорителей с экономикой обучения и вывода.
Платформенный контекст
Увидеть, почему инфраструктурные решения становятся частью ML-продукта, а не только внутренней платформы.
Архитектурный аргумент
Добавить в архитектурные ответы зрелый взгляд на вычислительную инфраструктуру и её ограничения.
Primary source
Книжный куб TPU series
Двухчастный разбор того, зачем Google понадобились TPU и как менялись их поколения.
Эта глава собрана на основе ваших постов и официальных материалов Google: как TPU выросли из инфраструктурного узкого места, зачем компании понадобился собственный и как архитектура прошла путь от ускорителя для к платформе для крупномасштабного обучения, а затем снова сместилась к выводу в эпоху GenAI.
Почему TPU вообще появились
Резко улучшить соотношение цены и производительности для ML-вывода по сравнению с доступными CPU и GPU.
Принять решение быстро и довести его до рабочего развёртывания в сжатые сроки.
Сохранить экономическую эффективность по мере роста ML-нагрузки в сервисах Google.
Эволюция TPU по поколениям
TPU v1
Вывод- От старта проекта до рабочего развёртывания прошло около 15 месяцев.
- 28-нм техпроцесс, 700 МГц, ~40 Вт.
- Ориентир: 92 TOPS INT8, заметный скачок энергоэффективности.
TPU v2
Обучение + вывод- Переход от ускорителя только для вывода к платформе, которая поддерживает и обучение, и вывод.
- TPU Pod с сетью из 256 чипов.
- Порядок величин: 180 TFLOPS и 64 ГБ по источникам главы.
TPU v3
Рост производительности- Введено жидкостное охлаждение.
- Существенно выросли вычислительная мощность и пропускная способность памяти.
- Порядок величин: до 420 TFLOPS по источникам главы.
TPU v4
Масштабирование pod-кластеров- Оптическая коммутация для ускорения межчипового обмена.
- Фокус на распределённом обучении моделей большого масштаба.
- Порядок величин: 275 TFLOPS на чип по источникам главы.
TPU v5e / v5p
Оптимизация стоимости- Фокус на более выгодной экономике обучения и вывода.
- Улучшение энергоэффективности и масштабирования подов.
- Поддержка разреженности и более гибких профилей нагрузки.
TPU v6 Trillium
Скачок производительности- До 4,7x роста вычислительной мощности на чип по сравнению с TPU v5e, по данным Google.
- Удвоены ёмкость и пропускная способность , выросла пропускная способность межчиповой сети.
- Энергоэффективность примерно на 67% выше, чем у TPU v5e, по данным Google.
TPU v7 Ironwood
Вывод в эпоху GenAI- Возврат к идее ускорителя прежде всего для вывода, как у TPU v1, но на новом масштабе.
- До 9 216 чипов в кластере с жидкостным охлаждением.
- Порядок величин: 4 614 TFLOPS на чип, 192 ГБ и 7,37 ТБ/с пропускной способности памяти.
TPU и GPU: как читать сравнения
Вычислительный профиль
GPU обычно универсальнее, а TPU сильнее заточены под тензорные нагрузки и глубже встроены в стек Google Cloud.
Экономика
В ряде сравнений TPU выглядят выгоднее по стоимости единицы полезной работы, но выводы сильно зависят от модели, размера пакета и качества оптимизации.
Экосистема
Экосистема CUDA у NVIDIA шире; TPU особенно сильны там, где команда уже строит стек вокруг TensorFlow, JAX и сервисов GCP.
Практический вывод: сравнение FLOPS, токенов и долларов без единой методики легко вводит в заблуждение. Смотрите на модель, числовую точность, размер пакета, межчиповую сеть, программный стек и бюджет по и .
Ключевые развилки эволюции TPU
От узкого места в продукте к собственному чипу
TPU v1 появился не как исследовательский эксперимент, а как ответ на практический вопрос: как удержать стоимость и для сервисов Google при резком росте нейросетевых моделей. Для этого компании понадобился собственный .
Что это дало: С самого начала архитектуру проектировали под рабочие SLA и энергоэффективность в дата-центре, а не только под рекордные бенчмарки.
Переход v2/v3: от ускорителя для вывода к общей платформе
С ростом размеров моделей стало недостаточно ускорять только вывод. TPU v2/v3 добавили поддержку крупного обучения, и pod-подход для масштабирования.
Что это дало: Google получила возможность ускорять полный ML-цикл в едином стеке: от экспериментов и обучения до рабочего вывода.
Переход v4/v5: фокус на межчиповую сеть и экономику подов
При распределённом обучении ограничением становится не только вычислительная мощность, но и межчиповая сеть. В эволюции TPU усилился акцент на pod-кластеры и .
Что это дало: Оптимизация сместилась на уровень системы целиком: вычисления, память, сеть и эксплуатация.
Переход v6/v7: новый приоритет вывода в эпоху GenAI
GenAI-нагрузки снова выдвинули вывод в центр: длинные контексты, высокие требования к и предсказуемой задержке при масштабировании.
Что это дало: TPU v7 Ironwood фактически возвращает идею v1, но уже на уровне гигантских кластеров с современной памятью и сетью.
Сильные и слабые стороны TPU-подхода
Плюсы
- Специализация под тензорные операции и глубокое обучение.
- Высокая энергоэффективность и хорошая экономика полной стоимости владения во многих AI-сценариях.
- Глубокая интеграция с Google Cloud, TensorFlow и JAX.
- Хорошая масштабируемость через TPU Pod-подход.
Ограничения
- Доступность в основном через Google Cloud.
- Меньшая универсальность для нетипичных вычислительных нагрузок.
- Экосистема инструментов в целом уже, чем вокруг CUDA.
- Риск сильной зависимости от одного вендора, если архитектура глубоко завязана на особенности TPU.
Фреймворк выбора TPU в реальном проекте
Профиль нагрузки
Сигнал в пользу TPU: Повторяющиеся тензорные задачи обучения и вывода с понятным путём оптимизации под TensorFlow и JAX.
Где возможна ошибка: Если у вас много нестандартных ядер или смешанных задач, универсальность GPU может оказаться важнее.
Экономика дата-центра
Сигнал в пользу TPU: Критична цена токена/итерации и энергоэффективность на длинном горизонте эксплуатации.
Где возможна ошибка: Без корректной модели полной стоимости владения сравнение по «цене часа железа» часто ведёт к неверным выводам.
Сетевая архитектура
Сигнал в пользу TPU: Нужно масштабировать обучение и вывод на уровне pod-кластеров и внимательно работать с межчиповой сетью.
Где возможна ошибка: Если сеть и программный стек не готовы, рост числа чипов не даст линейного ускорения.
Инженерная экосистема
Сигнал в пользу TPU: Команда уже использует сервисы GCP и готова вкладываться в профилирование XLA, JAX и TensorFlow.
Где возможна ошибка: Если стек жёстко завязан на CUDA и критична мультиоблачная переносимость, цена миграции может оказаться слишком высокой.
Что взять в собственные архитектурные решения
- Планируйте стратегию по аппаратным ускорителям как часть архитектуры продукта, а не как второстепенную инфраструктурную деталь.
- Оптимизируйте не только качество модели, но и стоимость полного цикла обучения и вывода.
- Закладывайте слой переносимости, если хотите снизить зависимость от одного вендора.
- Считайте эффективность по всей цепочке: модель, память, межчиповая сеть, программный стек и эксплуатация.
- Проверяйте масштабируемость на реальных потоках данных и рабочих SLO, а не только на синтетических тестах.
Источники
Книжный куб #3822
Часть 1: зачем Google вообще понадобились TPU и как развивались поколения v1-v3.
Книжный куб #3823
Часть 2: эволюция v4-v7, экономика ускорителей и сравнение с GPU.
Google Cloud: TPU transformation (10-year look back)
Официальный обзор того, как менялись поколения TPU и зачем Google двигалась в эту сторону.
In-Datacenter Performance Analysis of a TPU (ISCA 2017)
Классическая статья про TPU v1, её мотивацию и сравнение с CPU и GPU.
CloudExpat comparison
Сравнение экономики TPU v5e, H100 и Trainium; читать стоит критично и с поправкой на методику.
Все численные сравнения в этой главе приведены как ориентиры из указанных источников и требуют дополнительной проверки под конкретную нагрузку.
Связанные главы
- Зачем знать ML и AI инженеру - Контекст раздела и роль ML-мышления для архитекторов.
- CPU vs GPU - База по различиям аппаратных ускорителей перед разговором о TPU и GPU.
- Google Global Network - Сетевой фундамент, важный для распределённых кластеров TPU и GPU.
- Performance Engineering - Практики измерения задержки, пропускной способности и оптимизации под нагрузкой.
