System Design Space
Граф знанийНастройки

Обновлено: 5 апреля 2026 г. в 14:52

История появления Google TPU и их эволюции

средний

Как Google прошла путь от TPU v1 для вывода до Ironwood: архитектурные компромиссы, экономика вычислений и отличие TPU-подхода от GPU.

История TPU важна не только как история железа, но и как пример того, как экономика вычислений меняет архитектуру ML-систем.

Глава показывает, почему специализация ускорителей, разделение обучения и вывода и ограничения платформы напрямую влияют на инженерные решения вокруг моделей.

Она особенно полезна там, где выбор железа и стоимость рабочего контура становятся частью архитектурного компромисса.

Практическая польза главы

Аппаратный взгляд

Понять, как выбор ускорителей меняет системный дизайн вокруг моделей.

Экономика вычислений

Связать стратегию ускорителей с экономикой обучения и вывода.

Платформенный контекст

Увидеть, почему инфраструктурные решения становятся частью ML-продукта, а не только внутренней платформы.

Архитектурный аргумент

Добавить в архитектурные ответы зрелый взгляд на вычислительную инфраструктуру и её ограничения.

Primary source

Книжный куб TPU series

Двухчастный разбор того, зачем Google понадобились TPU и как менялись их поколения.

Открыть пост

Эта глава собрана на основе ваших постов и официальных материалов Google: как TPU выросли из инфраструктурного узкого места, зачем компании понадобился собственный и как архитектура прошла путь от ускорителя для к платформе для крупномасштабного обучения, а затем снова сместилась к выводу в эпоху GenAI.

Почему TPU вообще появились

Резко улучшить соотношение цены и производительности для ML-вывода по сравнению с доступными CPU и GPU.

Принять решение быстро и довести его до рабочего развёртывания в сжатые сроки.

Сохранить экономическую эффективность по мере роста ML-нагрузки в сервисах Google.

Эволюция TPU по поколениям

2015

TPU v1

Вывод
  • От старта проекта до рабочего развёртывания прошло около 15 месяцев.
  • 28-нм техпроцесс, 700 МГц, ~40 Вт.
  • Ориентир: 92 TOPS INT8, заметный скачок энергоэффективности.
2017

TPU v2

Обучение + вывод
  • Переход от ускорителя только для вывода к платформе, которая поддерживает и обучение, и вывод.
  • TPU Pod с сетью из 256 чипов.
  • Порядок величин: 180 TFLOPS и 64 ГБ по источникам главы.
2018

TPU v3

Рост производительности
  • Введено жидкостное охлаждение.
  • Существенно выросли вычислительная мощность и пропускная способность памяти.
  • Порядок величин: до 420 TFLOPS по источникам главы.
2021

TPU v4

Масштабирование pod-кластеров
  • Оптическая коммутация для ускорения межчипового обмена.
  • Фокус на распределённом обучении моделей большого масштаба.
  • Порядок величин: 275 TFLOPS на чип по источникам главы.
2023

TPU v5e / v5p

Оптимизация стоимости
  • Фокус на более выгодной экономике обучения и вывода.
  • Улучшение энергоэффективности и масштабирования подов.
  • Поддержка разреженности и более гибких профилей нагрузки.
2024

TPU v6 Trillium

Скачок производительности
  • До 4,7x роста вычислительной мощности на чип по сравнению с TPU v5e, по данным Google.
  • Удвоены ёмкость и пропускная способность , выросла пропускная способность межчиповой сети.
  • Энергоэффективность примерно на 67% выше, чем у TPU v5e, по данным Google.
2025

TPU v7 Ironwood

Вывод в эпоху GenAI
  • Возврат к идее ускорителя прежде всего для вывода, как у TPU v1, но на новом масштабе.
  • До 9 216 чипов в кластере с жидкостным охлаждением.
  • Порядок величин: 4 614 TFLOPS на чип, 192 ГБ и 7,37 ТБ/с пропускной способности памяти.

TPU и GPU: как читать сравнения

Вычислительный профиль

GPU обычно универсальнее, а TPU сильнее заточены под тензорные нагрузки и глубже встроены в стек Google Cloud.

Экономика

В ряде сравнений TPU выглядят выгоднее по стоимости единицы полезной работы, но выводы сильно зависят от модели, размера пакета и качества оптимизации.

Экосистема

Экосистема CUDA у NVIDIA шире; TPU особенно сильны там, где команда уже строит стек вокруг TensorFlow, JAX и сервисов GCP.

Практический вывод: сравнение FLOPS, токенов и долларов без единой методики легко вводит в заблуждение. Смотрите на модель, числовую точность, размер пакета, межчиповую сеть, программный стек и бюджет по и .

Ключевые развилки эволюции TPU

От узкого места в продукте к собственному чипу

TPU v1 появился не как исследовательский эксперимент, а как ответ на практический вопрос: как удержать стоимость и для сервисов Google при резком росте нейросетевых моделей. Для этого компании понадобился собственный .

Что это дало: С самого начала архитектуру проектировали под рабочие SLA и энергоэффективность в дата-центре, а не только под рекордные бенчмарки.

Переход v2/v3: от ускорителя для вывода к общей платформе

С ростом размеров моделей стало недостаточно ускорять только вывод. TPU v2/v3 добавили поддержку крупного обучения, и pod-подход для масштабирования.

Что это дало: Google получила возможность ускорять полный ML-цикл в едином стеке: от экспериментов и обучения до рабочего вывода.

Переход v4/v5: фокус на межчиповую сеть и экономику подов

При распределённом обучении ограничением становится не только вычислительная мощность, но и межчиповая сеть. В эволюции TPU усилился акцент на pod-кластеры и .

Что это дало: Оптимизация сместилась на уровень системы целиком: вычисления, память, сеть и эксплуатация.

Переход v6/v7: новый приоритет вывода в эпоху GenAI

GenAI-нагрузки снова выдвинули вывод в центр: длинные контексты, высокие требования к и предсказуемой задержке при масштабировании.

Что это дало: TPU v7 Ironwood фактически возвращает идею v1, но уже на уровне гигантских кластеров с современной памятью и сетью.

Сильные и слабые стороны TPU-подхода

Плюсы

  • Специализация под тензорные операции и глубокое обучение.
  • Высокая энергоэффективность и хорошая экономика полной стоимости владения во многих AI-сценариях.
  • Глубокая интеграция с Google Cloud, TensorFlow и JAX.
  • Хорошая масштабируемость через TPU Pod-подход.

Ограничения

  • Доступность в основном через Google Cloud.
  • Меньшая универсальность для нетипичных вычислительных нагрузок.
  • Экосистема инструментов в целом уже, чем вокруг CUDA.
  • Риск сильной зависимости от одного вендора, если архитектура глубоко завязана на особенности TPU.

Фреймворк выбора TPU в реальном проекте

Профиль нагрузки

Сигнал в пользу TPU: Повторяющиеся тензорные задачи обучения и вывода с понятным путём оптимизации под TensorFlow и JAX.

Где возможна ошибка: Если у вас много нестандартных ядер или смешанных задач, универсальность GPU может оказаться важнее.

Экономика дата-центра

Сигнал в пользу TPU: Критична цена токена/итерации и энергоэффективность на длинном горизонте эксплуатации.

Где возможна ошибка: Без корректной модели полной стоимости владения сравнение по «цене часа железа» часто ведёт к неверным выводам.

Сетевая архитектура

Сигнал в пользу TPU: Нужно масштабировать обучение и вывод на уровне pod-кластеров и внимательно работать с межчиповой сетью.

Где возможна ошибка: Если сеть и программный стек не готовы, рост числа чипов не даст линейного ускорения.

Инженерная экосистема

Сигнал в пользу TPU: Команда уже использует сервисы GCP и готова вкладываться в профилирование XLA, JAX и TensorFlow.

Где возможна ошибка: Если стек жёстко завязан на CUDA и критична мультиоблачная переносимость, цена миграции может оказаться слишком высокой.

Что взять в собственные архитектурные решения

  • Планируйте стратегию по аппаратным ускорителям как часть архитектуры продукта, а не как второстепенную инфраструктурную деталь.
  • Оптимизируйте не только качество модели, но и стоимость полного цикла обучения и вывода.
  • Закладывайте слой переносимости, если хотите снизить зависимость от одного вендора.
  • Считайте эффективность по всей цепочке: модель, память, межчиповая сеть, программный стек и эксплуатация.
  • Проверяйте масштабируемость на реальных потоках данных и рабочих SLO, а не только на синтетических тестах.

Источники

Все численные сравнения в этой главе приведены как ориентиры из указанных источников и требуют дополнительной проверки под конкретную нагрузку.

Связанные главы

  • Зачем знать ML и AI инженеру - Контекст раздела и роль ML-мышления для архитекторов.
  • CPU vs GPU - База по различиям аппаратных ускорителей перед разговором о TPU и GPU.
  • Google Global Network - Сетевой фундамент, важный для распределённых кластеров TPU и GPU.
  • Performance Engineering - Практики измерения задержки, пропускной способности и оптимизации под нагрузкой.

Чтобы отмечать прохождение, включи трекинг в Настройки