Эта глава показывает сеть не как фоновую инфраструктуру, а как центральную часть архитектуры глобального сервиса, особенно для ИИ-нагрузок и межрегионального перемещения данных.
В реальной инженерной работе она помогает учитывать топологию глобальной сети, защитное перенаправление маршрутов, управление трафиком и межрегиональные задержки как часть системного дизайна, а не как чужую зону ответственности.
В интервью и архитектурных обсуждениях она особенно полезна, когда нужно объяснить, как региональные сбои, перегрузка сети и хвостовая задержка начинают определять архитектуру не меньше, чем логика приложения.
Практическая польза главы
Практика проектирования
Помогает учитывать межрегиональную топологию и бюджет задержек при проектировании глобального сервиса.
Качество решений
Даёт ориентиры для маршрутизации ближе к пользователю, управления трафиком и устойчивости магистральной сети.
Аргументация на интервью
Позволяет объяснить, почему сеть становится частью архитектурной логики приложения.
Риски и компромиссы
Подсвечивает риск региональных сбоев, сетевой перегрузки и непредсказуемой хвостовой задержки.
Основной источник
Google Cloud Blog
Статья Google Cloud о глобальной сети нового поколения: где сеть становится ограничением, а не фоном для нагрузок эпохи Gemini.
Когда обучение модели растягивается на недели и привязано к кластерам в разных регионах, сеть перестаёт быть фоном: её задержка и сбои становятся ограничением архитектуры. Глава прослеживает, как глобальная сеть Google прошла путь от транспортной трубы к вычислительной ткани, и какие принципы она вынесла из эпохи ИИ. Материал основан на оригинальной статье Google Cloud и серии обзоров Книжный куб. Практический фокус один: какие из этих решений стоит перенести в собственный системный дизайн, когда работаете с глобальной сетью высокой пропускной способности, трафиком обучения и вывода моделей и требованиями к предсказуемой надёжности.
В этой главе рассматривается как , где , , и становятся частью архитектурного решения. Для ИИ-нагрузок одной и мало; на первый план выходят , , и всей сетевой платформы. Когда такая сеть обслуживает облако, добавляются изоляция, , , , , , , , и . На уровне эксплуатации это превращается в , , , и .
Эволюция глобальной сети Google
Интернет-эпоха (2000-е)
От поисковых сервисов к собственной глобальной магистрали
Поиск, почта и карты требовали быстрого и надёжного доступа, а арендованные каналы не давали ни контроля над маршрутами, ни предсказуемой стоимости. Ответом стали собственная магистральная сеть и крупные датацентры.
Эпоха потокового видео (конец 2000-х)
Сдвиг к видео и трафику, чувствительному к задержке
Видео не прощает задержек и рывков картинки, а рост YouTube вынес эту нагрузку на глобальный масштаб. Пришлось придвигать кэш ближе к пользователю, оптимизировать маршруты и менять транспортные протоколы.
Облачная эпоха (2010-е)
Изоляция, безопасность и управление программно-определяемой сетью (SDN) на уровне облака
С ростом облака Google Cloud (GCP) одна сеть стала обслуживать множество клиентов сразу. Цена ошибки выросла: чужой трафик нельзя смешивать, а управляемость пришлось выносить в программные абстракции — мультиарендную изоляцию и безопасность по умолчанию.
Масштаб сети сегодня по данным Google
2M+
миль оптоволокна
33
подводных кабеля
200+
точка присутствия (PoP), всего
3000+
точек сети доставки контента (CDN)
42
облачных регионов
127
зон доступности
Четыре вызова эпохи ИИ для сетевой архитектуры
Вызов 1
Глобальная сеть ощущается как локальная
Обучение базовых моделей идёт на удалённых кластерах из тензорных (TPU) и графических (GPU) ускорителей, но синхронизация градиентов не терпит расстояния. Сеть между регионами должна вести себя почти так же плотно, как соединения между стойками внутри одного датацентра.
Вызов 2
Почти нулевая терпимость к сбоям
Долгий контур обучения теряет часы прогресса от короткой сетевой деградации. Поэтому переход на резервные пути измеряется секундами, а не минутами — иначе деградация превращается в откат вычислений.
Вызов 3
Безопасность и регулирование по умолчанию
Шифрование, изоляция и ограничения на размещение данных перестают быть отдельной настройкой. Сеть держит их одновременно для разных стран и клиентов, и любое исключение становится дырой в комплаенсе.
Вызов 4
Операционная сложность растёт быстрее команд
Ёмкость сети растёт быстрее, чем штат инженеров, и ручное управление перестаёт масштабироваться линейно. Без автоматизации, самовосстановления и прогноза ёмкости команда упирается в потолок раньше, чем железо.
Новые принципы проектирования сети
Масштабирование через сетевые шарды
Сеть режут на шарды по контроллерам и каналам — и пропускную способность наращивают параллельно, не трогая остальное. Бонус важнее самого роста: сбой одного шарда не растекается на всю сеть, радиус поражения остаётся ограниченным.
По данным статьи, ёмкость глобальной сети WAN выросла в 7 раз за период 2020-2025.
Надёжность выше «пяти девяток»
Средняя доступность перестаёт быть честной метрикой, когда один редкий инцидент обнуляет недели обучения. Длительные ИИ-нагрузки оценивают сеть не по среднему, а по поведению в худшие моменты — там, где она должна оставаться предсказуемой.
Перенаправление маршрута Protective ReRoute в статье связывается со снижением суммарного простоя до 93%.
Программируемость через намерения
Инженер описывает, чего он хочет от сети, а не как это настроить на каждом устройстве. Контроллеры программно-определяемой сети (SDN) сами разворачивают высокоуровневое намерение в конкретные правила маршрутизации и безопасности — ручная конфигурация перестаёт быть узким местом.
В статье обсуждаются MALT-модели и открытые API как основа программируемости.
Автономные сетевые операции
Машинное обучение (ML) и цифровые двойники прогоняют отказы заранее — на модели сети, а не на живом трафике. Это ускоряет поиск корневой причины и прогноз ёмкости, оставляя людям решения, а не рутину ручного вмешательства.
Реакция на инциденты эволюционирует от часов к минутам.
Что применить в собственном системном дизайне
- Думать о глобальной сети как о вычислительной ткани, а не только как о «транзитной трубе».
- Проектировать масштабирование через изоляцию доменов отказа: шарды, регионы и ячейки отказа.
- Формулировать сетевые намерения на языке требований бизнеса: задержка, суверенитет данных, безопасность и стоимость.
- Вкладываться в наблюдаемость и автоматизацию, чтобы сокращать среднее время восстановления (MTTR) и зависимость от ручного реагирования.
- Оценивать надёжность на хвосте распределения, а не только по средним метрикам соглашения об уровне сервиса (SLA).
Для связанного контекста: вводная по распределенным системам, консенсус и отказоустойчивость, принципы масштабируемых систем.
Источники
Google Cloud Blog: Google’s AI-powered next-generation global network
Основная статья Google Cloud, на которой построена глава.
Cloud WAN for the AI era
Как Google описывает глобальную сеть как облачный продукт для клиентов GCP.
Книжный куб: обзор #4030
Эволюция сети: интернет, потоковое видео и облако.
Книжный куб: обзор #4033
Четыре ключевых вызова сети в эпоху ИИ.
Книжный куб: обзор #4034
Четыре новых принципа проектирования сети.
Связанные главы
- Зачем нужны распределённые системы и консистентность - Объясняет, почему глобальная сеть становится частью распределённой архитектуры, а не внешней инфраструктурной деталью.
- Мультирегиональные и глобальные системы - Продолжает тему размещения данных, межрегионального трафика и устойчивости сервисов в разных частях мира.
- Принципы проектирования масштабируемых систем - Показывает, как планирование ёмкости, радиус поражения и устойчивость применяются к глобальным ИИ-нагрузкам.
- Теорема PACELC - Даёт модель для оценки цены задержки и консистентности, которую напрямую задают глобальные сетевые решения.
- Консенсус: Paxos и Raft - Помогает связать стабильность сети с кворумами и согласованием состояния между удалёнными зонами.
- Синхронизация часов в распределённых системах - Раскрывает влияние задержек и случайного разброса сети на порядок событий, временные допущения и корректность протоколов.
- Зачем знать Cloud Native и 12 факторов - Связывает сетевую платформу с облачно-ориентированными практиками: изоляцией, автоматизацией и управляемостью сервисов.
- Kafka: The Definitive Guide, 2nd Edition (краткий обзор) - Показывает сетевую цену потоковых платформ: межрегиональную репликацию, пропускную способность и восстановление при деградации глобальной сети WAN.
- Потоковая обработка данных (краткий обзор) - Объясняет, как глобальная сеть влияет на задержку конвейеров и обработку непрерывных потоков данных.
- Google TPU: эволюция архитектуры и impact на ML-системы - Добавляет аппаратный и межсоединительный контекст эпохи ИИ: почему эволюция TPU повышает требования к глобальной сети.
