System Design Space
Граф знанийНастройки

Обновлено: 25 марта 2026 г. в 03:00

Google Global Network: эволюция и архитектурные принципы для AI-эпохи

hard

Эволюция сети Google от internet/streaming/cloud эпох к AI-era: WAN as new LAN, multi-shard дизайн, Protective ReRoute, intent-driven programmability и автономные операции.

Эта глава ценна тем, что показывает сеть не как фоновую инфраструктуру, а как центральную часть архитектуры глобального сервиса, особенно в мире AI-нагрузок и межрегиональных перемещений данных.

В реальной инженерной работе она помогает учитывать WAN-топологию, reroute-механику, traffic engineering и межрегионные задержки как часть системного дизайна, а не как чужую зону ответственности где-то за пределами команды.

В интервью, review и архитектурных разговорах она особенно полезна, когда нужно объяснить, как региональные сбои, congestion и tail latency начинают определять архитектуру не меньше, чем логика приложения.

Практическая польза главы

Практика проектирования

Помогает учитывать межрегионную топологию и latency-budget при проектировании глобального сервиса.

Качество решений

Дает ориентиры для edge-routing, traffic engineering и устойчивости backbone-контуров.

Interview-аргументация

Позволяет объяснить, почему сеть становится частью архитектурной логики приложения.

Риски и компромиссы

Подсвечивает риск региональных сбоев, congestion и непредсказуемых tail-latency эффектов.

Primary Source

Google Cloud Blog

Google’s AI-powered next-generation global network: Built for the Gemini era.

Открыть статью

Эта глава суммирует эволюцию глобальной сети Google и ее новые архитектурные принципы в AI-эпоху. Материал основан на оригинальной статье Google Cloud и серии обзоров book_cube. Практический фокус: какие решения стоит перенести в ваш system design при работе с high-throughput WAN, training/inference трафиком и требованиями к deterministic reliability.

Эволюция сети Google по эпохам

Масштаб сети сегодня (по данным статьи)

2M+

миль оптоволокна

33

подводных кабеля

200+

Point of Presence

3000+

CDN-локаций

42

cloud regions

127

availability zones

Четыре AI-вызова для сетевой архитектуры

Challenge 1

WAN как новая LAN

Обучение foundation-моделей требует связывать удаленные TPU/GPU-кластеры так, будто они в одном датацентре.

Challenge 2

Почти нулевая терпимость к сбоям

Длительные train/inference-пайплайны критичны к сетевым деградациям; переключение на резервные пути должно быть почти мгновенным.

Challenge 3

Security + regulatory-by-design

Нужно одновременно держать шифрование, изоляцию и географические ограничения по данным для разных стран и клиентов.

Challenge 4

Операционная сложность растет быстрее команд

Линейное увеличение ручных операций больше не работает: требуются автоматизация, self-healing и прогнозирование емкости.

Новые принципы дизайна сети

Экспоненциальная масштабируемость через multi-shard WAN

Шарды сети изолируются по контроллерам и каналам, что позволяет параллельно расширять пропускную способность и ограничивать blast radius.

По данным статьи: рост WAN-capacity в 7 раз в период 2020-2025.

Надежность выше «пяти девяток»

Фокус смещается с усредненной availability к long-tail инцидентам: важен детерминизм для долгих AI workload.

Protective ReRoute в статье связывается со снижением суммарного downtime до 93%.

Intent-driven programmability

Высокоуровневые intent-политики преобразуются SDN-контроллерами в конкретные маршрутизационные и security-решения.

В статье обсуждаются MALT-модели и открытые API как основа программируемости.

Автономные сетевые операции

ML + digital twin используются для симуляции отказов, faster RCA и прогнозирования, чтобы сеть работала с минимальным ручным вмешательством.

Реакция на инциденты эволюционирует от часов к минутам.

Что взять в собственный System Design

  • Думать о WAN как о compute fabric, а не только как о «транзитной трубе».
  • Проектировать масштабирование через изоляцию доменов отказа (шарды, регионы, failure cells).
  • Формулировать network intent на уровне бизнес-требований: latency, sovereignty, security, cost.
  • Вкладываться в observability + automation, чтобы сократить MTTR и зависимость от ручного реагирования.
  • Оценивать long-tail надежность, а не только средние SLA-метрики.

Для связанного контекста: вводная по распределенным системам, консенсус и отказоустойчивость, принципы масштабируемых систем.

References

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки