Граф знанийНастройки

Обновлено: 25 марта 2026 г. в 00:30

Multi-region / Global Systems

hard

Проектирование глобальных cloud-native систем: multi-region topologies, consistency trade-offs, global traffic routing и disaster recovery.

Глобальные системы начинаются не с красивой карты регионов, а с честного разговора о географии отказов, задержке и пределах консистентности.

Для реальных проектных решений глава помогает увидеть, как multi-region topology, routing policy, replication strategy, disaster recovery и legal constraints должны складываться в одну модель системы, а не жить набором независимых решений по регионам.

Для интервью и инженерных разборов она полезна тем, что помогает объяснять цену глобализации через write conflicts, сложность эксплуатации, рост инфраструктурного бюджета и более дорогую операционную дисциплину.

Практическая польза главы

Практика проектирования

Определяйте multi-region topology под latency, legal constraints и recovery objectives.

Качество решений

Согласовывайте routing policy, replication strategy и consistency model между регионами.

Interview articulation

Показывайте decision flow: active-active vs active-passive, failover policy, data residency.

Trade-off framing

Объясняйте стоимость глобализации: сложность эксплуатации, write-conflicts и рост инфраструктурного бюджета.

Контекст

Cloud Native Overview

База по cloud-native принципам, поверх которых строится multi-region дизайн.

Открыть главу

Multi-region / Global Systems - это проектирование сервисов, которые продолжают работать при отказе региона и дают предсказуемую задержку пользователям по всему миру. Главный инженерный вопрос здесь не только "как развернуть во многих регионах", а как сбалансировать latency, availability, consistency, compliance и стоимость.

Базовые multi-region topology

Global usersweb / mobile clientsGlobal traffic managergeo DNS / health routingPrimary regionApp clusterserves all trafficDB primarysingle writerSecondary regionStandby appactivated on failoverDB replicaasync replicatedrequestsprimary routefailover routewriteasync replicationreads on failover

Когда подходит

Простой старт для большинства B2B/B2C систем с одним основным регионом.

Компромисс

Низкая операционная сложность, но выше RTO/RPO и неидеальная latency для пользователей вне primary-region.

Фокус эксплуатации

Автоматизация failover/failback и проверка целостности после promotion secondary.

Один регион обслуживает основную нагрузку, второй держится в standby и активируется при деградации primary.

Decision framework

  • Latency budget: какое p95/p99 время ответа допустимо в каждом регионе.
  • Availability target: какая деградация приемлема при падении целого региона.
  • Consistency model: где нужен strict consistency, а где достаточно eventual.
  • Data sovereignty: где физически можно хранить и обрабатывать данные.
  • Cost profile: сколько стоит cross-region replication, egress и резервная ёмкость.

Theory

CAP Theorem

При глобальном partition архитектура должна явно выбрать приоритеты CP/AP.

Открыть главу

Data layer: replication и consistency

Single-writer + read replicas

Хороший baseline для OLTP с понятной моделью консистентности и управляемым failover.

Multi-primary with conflict resolution

Подходит для write-heavy global workloads, но требует чёткой стратегии merge/last-write-wins/CRDT.

Regional sharding

Разделение tenant/data-domain по регионам уменьшает latency и стоимость, повышает изоляцию отказов.

Dual-write недопустим без coordination

Пишите через outbox/eventing или согласованный replication layer, иначе получите рассинхрон и потери.

Global traffic routing

  • Geo DNS / latency-based routing для входящего глобального трафика.
  • Health-aware traffic steering с быстрым исключением деградировавших регионов.
  • Region affinity (sticky routing), чтобы сессии и кэш оставались локальными.
  • Глобальный API gateway/edge слой с явными policy для fallback и partial outage.

DR, failover и операционная готовность

Определите RTO/RPO по каждому критичному сервису и базе данных.

Проверяйте failover/failback регулярно (game days), а не только на бумаге.

Автоматизируйте promotion secondary-region и проверку data integrity после переключения.

Держите runbook: кто, когда и по каким сигналам инициирует regional failover.

Разделяйте dependency graph, чтобы региональная авария не каскадировала глобально.

Без регулярных failover-тренировок multi-region архитектура часто остаётся "теоретически" отказоустойчивой, но не практической.

References

Связанные главы

  • Cloud Native Overview - Базовые принципы cloud-native архитектур и операционных практик.
  • Kubernetes Fundamentals - Механики multi-cluster, rollout и устойчивости workloads.
  • CAP Theorem - Фундаментальные ограничения распределённых систем при partition.
  • PACELC - Trade-off latency vs consistency не только во время сбоев.
  • Consensus Protocols - Как договариваться о состоянии в отказоустойчивом кластере.
  • Google Global Network - Эволюция глобальной сети и подходы к WAN как стратегическому активу.
  • Cost Optimization & FinOps - Как считать стоимость multi-region решений и долгосрочные компромиссы.
  • SRE и операционная надёжность - Инциденты, SLO и эксплуатация сложных production-систем.

Чтобы отмечать прохождение, включи трекинг в Настройки