Синхронизация часов в распределённых системах

Время в распределённой системе редко ломается красиво. Обычно оно тихо просачивается в аренды на запись, TTL, окна агрегации и порядок событий, пока команда не обнаруживает, что ломалась вовсе не бизнес-логика, а сами часы.

На практике эта глава помогает понять, когда достаточно физического времени, когда нужно логическое время и где от рассинхронизации часов надо защищаться архитектурными инвариантами, а не надеждой на идеальный NTP.

В интервью и инженерных обсуждениях она особенно полезна там, где нужно показать, как дрейф часов портит корректность и SLA в на первый взгляд безобидных механизмах вроде удаления дублей, сроков действия записей и аренды на запись.

Практическая польза главы

Практика проектирования

Помогает учитывать рассинхронизацию часов в идемпотентности, порядке событий и удалении дублей.

Качество решений

Даёт критерии выбора между физическим временем, логическим временем и гибридными моделями для разных классов задач.

Аргументация на интервью

Позволяет объяснить, почему время в распределённой системе нельзя считать абсолютным источником истины.

Риски и компромиссы

Показывает, где рассинхронизация ломает TTL-логику, аренды на запись и оконные агрегации.

Контекст

Зачем нужны распределённые системы и консистентность

Семантика времени — фундамент, на котором стоят консистентность, координация и наблюдаемость в распределённых системах.

Открыть главу

Синхронизация часов в распределённой системе нужна не ради того, чтобы все серверы показывали одну и ту же секунду. Её задача — удержать в допустимых границах ошибки, которые время вносит в дедлайны, аудит, координацию и безопасность. Чем шире разнесена система, тем дороже обходится скрытое допущение «часы у всех идут одинаково».

нужно для внешних сроков и журналов аудита, но само по себе порядка событий между узлами не гарантирует. Поэтому рядом с ним приходится держать , , , и — как отдельные инженерные понятия с собственной ценой.

Дальше глава связывает , , , , , , , , , и устойчивость механизмов .

Почему это важно

Без согласованных часов событийные системы теряют порядок сообщений и начинают воспроизводить дубли как новые события.
Кэши, службы блокировок и обнаружение сервисов держатся на аренде записи и времени жизни — рассинхронизация ломает обе границы.
В удалённых вызовах процедур (RPC) и очередях дедлайны и бюджеты тайм-аутов превращаются в ложные таймауты, если узлы по-разному оценивают «сейчас».
Безопасность: срок действия токенов, окна повторного воспроизведения и проверки защиты от повторной отправки напрямую зависят от часов клиента и сервера.
Аудит и расследование инцидентов разваливаются, когда последовательность действий восстанавливается по календарному времени с разных узлов.

Модели времени

Визуализация показывает, откуда в каждой модели берётся порядок, как именно обновляется метка времени и где проходят практические границы физического, логического и гибридного времени.

Как работают разные модели времени

Диаграмма сравнивает источник порядка, способ обновления метки и практические ограничения физического, логического и гибридного времени.

Физическое время

Порядок через внешний источник времени

Узлы синхронизируются с общей шкалой времени через NTP или PTP, но всё равно живут с рассинхронизацией и дрейфом часов.

Интерактивный прогонШаг 1/5

Активный шаг

Внешний источник задаёт эталон

Система опирается на внешний time source, который определяет, к какому времени узлы пытаются приблизиться.

Архитектурная схема

Что этот подход хорошо сохраняет

Внешние дедлайны, срок действия токенов, TTL, аудит и понятные человеку отметки времени, связанные с UTC.

Чего он не гарантирует

Не гарантирует причинный порядок между узлами и не убирает рассинхронизацию или дрейф часов полностью.

Когда его лучше использовать

Истечения сроков, leases, audit trails и правила, которые должны быть привязаны к внешнему календарному времени.

Связанная глава

Консенсус: Paxos и Raft

Тайм-ауты выборов лидера и аренды на запись остаются безопасными ровно до тех пор, пока система контролирует свои временные допущения.

Открыть главу

Подходы к синхронизации времени

NTP

Когда: Базовый выбор для большинства распределённых систем общего назначения — дешёвый, понятный, везде поддерживается.

Ограничения: Точность порядка миллисекунд означает, что мониторинг рассинхронизации, резервирование источников времени и безопасная деградация при срыве синхронизации — обязательная часть эксплуатации, а не опция.

PTP

Когда: Имеет смысл там, где миллисекунд уже не хватает: биржа, телеком, промышленная автоматизация.

Ограничения: Цена точности — отдельная сетевая инфраструктура, аппаратные таймстемпы и заметно более тяжёлая эксплуатация. Без этого ожидаемая точность не достигается.

Упорядочивание на уровне приложения

Когда: Включается там, где бизнес-инварианты нельзя ставить в зависимость от календарного времени даже при идеальной синхронизации.

Ограничения: Порядок приходится строить на последовательностях, причинности или версионировании. Это дороже в коде, зато не зависит от того, насколько хорошо настроен протокол NTP сегодня.

Материал

Лэсли Лэмпорт: причинность, Paxos и инженерное мышление

Причинность, логические часы и инженерный подход Лэмпорта к распределённым системам — у самого истока этой темы.

Открыть главу

Паттерны проектирования

Длительности измеряйте монотонными часами: календарное время может прыгнуть назад после ресинхронизации и сломать все интервалы. Календарь оставьте для отображения и внешних бизнес-правил.

На критичных путях записи отметки времени и номера последовательности должны проставляться на сервере — клиентские часы доверять нельзя.

При сравнении отметок с разных узлов всегда закладывайте окно неопределённости: иначе порядок событий зависит от того, чей протокол NTP сегодня точнее.

Дрейф часов нужно отслеживать как отдельный сигнал и выводить узлы с опасным смещением из кворума до того, как они начнут портить координацию.

Безопасность, построенная только на клиентском времени, ломается на первом же переводе часов или скомпрометированном устройстве.

Практический чек-лист

Метрики смещения часов и нестабильности синхронизации видны по всем рабочим контурам — а не только на одном эталонном узле.
На массовый дрейф часов и отказ источника времени есть отдельный плейбук, а не импровизация во время инцидента.
Логика отметок времени проверяется под искусственной рассинхронизацией в интеграционных тестах и тестах отказоустойчивости.
Тайм-ауты по соглашению об уровне сервиса (SLA) измеряются монотонными часами, а не календарным временем — иначе перевод часов превращается в инцидент.
У критичных транзакций есть независимый механизм упорядочивания — последовательности, причинность или версии — помимо календарного времени.

Типичный антипаттерн: класть всё упорядочивание событий на одну отметку календарного времени — первая же ресинхронизация переписывает историю.

Источники

Связанные главы

Консенсус: Paxos и Raft - Кворум, тайм-ауты и выбор лидера держатся на временных допущениях — глава показывает, что именно ломается при их нарушении.
Выбор лидера: паттерны и реализации - Разбирает, почему аренды на запись и переключение на резерв первыми реагируют на рассинхронизацию часов.
Jepsen и модели консистентности - Какие ошибки упорядочивания и консистентности проявляются в реальных распределённых системах — и как их ловят на проде.
Тестирование распределённых систем - Практика тестирования рассинхронизации, дрейфа времени и хрупкой логики, завязанной на часы.
Распределённые транзакции: двухфазная и трёхфазная фиксация - Почему фазы транзакций и политика тайм-аутов разваливаются ровно там, где временные допущения оказались слишком оптимистичными.