System Design Space

    Глава 93

    Обновлено: 13 февраля 2026 г. в 12:20

    Google Global Network: эволюция и архитектурные принципы для AI-эпохи

    Прогресс части0/21

    Эволюция сети Google от internet/streaming/cloud эпох к AI-era: WAN as new LAN, multi-shard дизайн, Protective ReRoute, intent-driven programmability и автономные операции.

    Primary Source

    Google Cloud Blog

    Google’s AI-powered next-generation global network: Built for the Gemini era.

    Открыть статью

    Эта глава суммирует эволюцию глобальной сети Google и ее новые архитектурные принципы в AI-эпоху. Материал основан на оригинальной статье Google Cloud и серии обзоров book_cube. Практический фокус: какие решения стоит перенести в ваш system design при работе с high-throughput WAN, training/inference трафиком и требованиями к deterministic reliability.

    Эволюция сети Google по эпохам

    Масштаб сети сегодня (по данным статьи)

    2M+

    миль оптоволокна

    33

    подводных кабеля

    200+

    Point of Presence

    3000+

    CDN-локаций

    42

    cloud regions

    127

    availability zones

    Четыре AI-вызова для сетевой архитектуры

    Challenge 1

    WAN как новая LAN

    Обучение foundation-моделей требует связывать удаленные TPU/GPU-кластеры так, будто они в одном датацентре.

    Challenge 2

    Почти нулевая терпимость к сбоям

    Длительные train/inference-пайплайны критичны к сетевым деградациям; переключение на резервные пути должно быть почти мгновенным.

    Challenge 3

    Security + regulatory-by-design

    Нужно одновременно держать шифрование, изоляцию и географические ограничения по данным для разных стран и клиентов.

    Challenge 4

    Операционная сложность растет быстрее команд

    Линейное увеличение ручных операций больше не работает: требуются автоматизация, self-healing и прогнозирование емкости.

    Новые принципы дизайна сети

    Экспоненциальная масштабируемость через multi-shard WAN

    Шарды сети изолируются по контроллерам и каналам, что позволяет параллельно расширять пропускную способность и ограничивать blast radius.

    По данным статьи: рост WAN-capacity в 7 раз в период 2020-2025.

    Надежность выше «пяти девяток»

    Фокус смещается с усредненной availability к long-tail инцидентам: важен детерминизм для долгих AI workload.

    Protective ReRoute в статье связывается со снижением суммарного downtime до 93%.

    Intent-driven programmability

    Высокоуровневые intent-политики преобразуются SDN-контроллерами в конкретные маршрутизационные и security-решения.

    В статье обсуждаются MALT-модели и открытые API как основа программируемости.

    Автономные сетевые операции

    ML + digital twin используются для симуляции отказов, faster RCA и прогнозирования, чтобы сеть работала с минимальным ручным вмешательством.

    Реакция на инциденты эволюционирует от часов к минутам.

    Что взять в собственный System Design

    • Думать о WAN как о compute fabric, а не только как о «транзитной трубе».
    • Проектировать масштабирование через изоляцию доменов отказа (шарды, регионы, failure cells).
    • Формулировать network intent на уровне бизнес-требований: latency, sovereignty, security, cost.
    • Вкладываться в observability + automation, чтобы сократить MTTR и зависимость от ручного реагирования.
    • Оценивать long-tail надежность, а не только средние SLA-метрики.

    Для связанного контекста: вводная по распределенным системам, консенсус и отказоустойчивость, принципы масштабируемых систем.

    References