Primary Source
Google Cloud Blog
Google’s AI-powered next-generation global network: Built for the Gemini era.
Эта глава суммирует эволюцию глобальной сети Google и ее новые архитектурные принципы в AI-эпоху. Материал основан на оригинальной статье Google Cloud и серии обзоров book_cube. Практический фокус: какие решения стоит перенести в ваш system design при работе с high-throughput WAN, training/inference трафиком и требованиями к deterministic reliability.
Эволюция сети Google по эпохам
Internet era (2000-е)
От search-сервисов к собственной глобальной магистрали
Фокус был на быстром и надежном доступе к поиску, почте и картам. Google строила частную backbone-сеть и крупные датацентры.
Streaming era (конец 2000-х)
Сдвиг под видео и чувствительный к latency трафик
Рост YouTube и видеонагрузки потребовал снизить задержки и jitter через edge-кэширование, оптимизацию маршрутов и новые transport-подходы.
Cloud era (2010-е)
Изоляция, безопасность и SDN-управление на уровне облака
С ростом GCP усилились требования к multi-tenant изоляции, security и управляемости сети через программные абстракции.
Масштаб сети сегодня (по данным статьи)
2M+
миль оптоволокна
33
подводных кабеля
200+
Point of Presence
3000+
CDN-локаций
42
cloud regions
127
availability zones
Четыре AI-вызова для сетевой архитектуры
Challenge 1
WAN как новая LAN
Обучение foundation-моделей требует связывать удаленные TPU/GPU-кластеры так, будто они в одном датацентре.
Challenge 2
Почти нулевая терпимость к сбоям
Длительные train/inference-пайплайны критичны к сетевым деградациям; переключение на резервные пути должно быть почти мгновенным.
Challenge 3
Security + regulatory-by-design
Нужно одновременно держать шифрование, изоляцию и географические ограничения по данным для разных стран и клиентов.
Challenge 4
Операционная сложность растет быстрее команд
Линейное увеличение ручных операций больше не работает: требуются автоматизация, self-healing и прогнозирование емкости.
Новые принципы дизайна сети
Экспоненциальная масштабируемость через multi-shard WAN
Шарды сети изолируются по контроллерам и каналам, что позволяет параллельно расширять пропускную способность и ограничивать blast radius.
По данным статьи: рост WAN-capacity в 7 раз в период 2020-2025.
Надежность выше «пяти девяток»
Фокус смещается с усредненной availability к long-tail инцидентам: важен детерминизм для долгих AI workload.
Protective ReRoute в статье связывается со снижением суммарного downtime до 93%.
Intent-driven programmability
Высокоуровневые intent-политики преобразуются SDN-контроллерами в конкретные маршрутизационные и security-решения.
В статье обсуждаются MALT-модели и открытые API как основа программируемости.
Автономные сетевые операции
ML + digital twin используются для симуляции отказов, faster RCA и прогнозирования, чтобы сеть работала с минимальным ручным вмешательством.
Реакция на инциденты эволюционирует от часов к минутам.
Что взять в собственный System Design
- Думать о WAN как о compute fabric, а не только как о «транзитной трубе».
- Проектировать масштабирование через изоляцию доменов отказа (шарды, регионы, failure cells).
- Формулировать network intent на уровне бизнес-требований: latency, sovereignty, security, cost.
- Вкладываться в observability + automation, чтобы сократить MTTR и зависимость от ручного реагирования.
- Оценивать long-tail надежность, а не только средние SLA-метрики.
Для связанного контекста: вводная по распределенным системам, консенсус и отказоустойчивость, принципы масштабируемых систем.
References
Google Cloud Blog: Google’s AI-powered next-generation global network
Базовая статья, на которой построена глава.
Cloud WAN for the AI era
Как Google позиционирует глобальную сеть как продукт для GCP-клиентов.
book_cube review #4030
Эволюция сети: internet -> streaming -> cloud.
book_cube review #4033
Четыре ключевых вызова сети в AI-эпоху.
book_cube review #4034
Четыре новых принципа дизайна сети.
