System Design Space
Граф знанийНастройки

Обновлено: 13 марта 2026 г. в 15:30

ML Ops Pipeline

medium

Классическая задача: feature pipelines, model registry, offline/online parity, rollout safety и drift monitoring.

Эта глава из темы 3 фокусируется на AI/ML workflows, feature pipelines и rollout-контуры. Здесь важно не только предложить рабочую схему, но и показать, как она ведёт себя при росте нагрузки и сбоях.

Используйте структуру разбора: требования -> архитектура -> критический deep dive -> эволюция. Такой подход делает решение прозрачным и интервью-устойчивым.

Offline/Online Parity

Контролируйте консистентность фичей и схему данных между training и serving слоями.

Rollout Safety

Canary, shadow, rollback и drift-alerting должны быть частью базовой архитектуры.

Data Quality

Нужны guardrails для freshness, lineage и предотвращения training-serving skew.

Platform Efficiency

Оптимизируйте стоимость pipelines, feature storage и inference latency.

Playbook прохождения кейса

1

Определите feature contract

Фаза 1

Согласуйте схему и семантику фичей между offline и online контурами.

2

Постройте rollout-политику

Фаза 2

Опишите canary/shadow/rollback и мониторинг качества модели.

3

Закройте data quality риски

Фаза 3

Добавьте проверки freshness, lineage и drift/скос распределений.

4

Оптимизируйте стоимость

Фаза 4

Покажите баланс между SLA инференса и ценой feature/model pipelines.

Связанная глава

Machine Learning System Design

Фреймворк для ML-кейсов: требования, метрики, данные, эксплуатационные риски.

Читать обзор

ML Ops Pipeline - это системный кейс про то, как довести модель от эксперимента до стабильной production-эксплуатации. На интервью проверяют, умеете ли вы проектировать end-to-end lifecycle: данные, обучение, release, serving, мониторинг и безопасную деградацию при сбоях.

Границы скоупа главы

Покрываем в этой главе

  • Сквозной lifecycle: ingest -> training/eval -> registry/release -> serving -> monitoring -> retraining.
  • Release governance: quality gates, rollout policy (canary/shadow/A-B) и rollback readiness.
  • Операционная модель: SLO, ownership, runbooks и реакция на drift/quality incidents.

Что не покрываем

  • Низкоуровневый дизайн feature registry и schema evolution на уровне конкретного API.
  • Детали online/offline retrieval контрактов, key design, TTL и hot-key mitigation в online store.
  • Глубокая механика materialization jobs и конфликт-резолвинг batch/stream обновлений.

Детальный runtime-разбор Feature Store и serving контрактов вынесен в Feature Store & Model Serving.

Функциональные требования

  • Собрать единый pipeline: от сырых событий и данных до production inference.
  • Поддержать reproducible training: versioned datasets, feature definitions и model artifacts.
  • Обеспечить controlled rollout моделей (canary/shadow/A-B) с безопасным rollback.
  • Собрать feedback loop: онлайн-метрики, drift-сигналы и повторное обучение.

Нефункциональные требования

  • p95 latency online inference < 150 мс для user-facing сценариев.
  • Feature freshness SLA: 1-5 минут для критичных поведенческих сигналов.
  • Доступность inference контура 99.95% с деградацией через fallback baseline.
  • Полная auditability: lineage для данных, фичей, моделей и rollout-решений.

Масштаб и предположения

ПараметрОценкаПочему важно
DAU8MПродукт с постоянным потоком пользовательских событий и персонализацией в реальном времени.
Peak inference QPS120kНагрузка распределена по нескольким user-surface: feed, search, recommendations.
Feature updates1.5B/dayСобытия требуют near real-time materialization в online feature store.
Model retraining cadencedaily + emergency retrainsМодель должна адаптироваться к сезонности, кампаниям и distribution shifts.
Peak artifact size2-8 GB/modelНужны надежные policy для хранения, доставки и rollback артефактов.

High-Level Architecture

Stage 1: Data & Feature Pipelines

Ingestion через batch + streaming, quality checks, point-in-time joins и публикация фичей в offline/online stores.

Stage 2: Training & Validation

Оркестрация train/eval jobs, experiment tracking, reproducible datasets и проверка model-quality guardrails.

Stage 3: Registry & Release Management

Model registry со stage transitions (staging -> canary -> prod), approval policy и rollback-ready пакетами.

Stage 4: Serving & Monitoring

Online inference API, fallback policy, latency/error/freshness SLO и drift monitoring с auto-alerting.

Типовой контур: события и данные попадают в ingest pipeline, фичи публикуются в offline/online stores, оркестратор запускает train/eval, registry управляет версиями и rollout, а serving слой замыкает feedback loop через online-метрики и drift сигналы.

Deep Dives и trade-offs

Freshness vs reproducibility

Чем быстрее обновляете фичи и модели, тем лучше реакция на новый сигнал, но выше риск потери воспроизводимости и сложнее расследовать regressions.

Batch simplicity vs streaming responsiveness

Batch-контур дешевле и проще в поддержке, но проигрывает по актуальности. Streaming уменьшает lag, но резко повышает операционную сложность.

Single model vs multi-model routing

Одна универсальная модель упрощает управление, но часто уступает качеством. Routing по сегментам повышает качество, но усложняет контроль версий и rollout.

Strict guardrails vs скорость релизов

Жесткие quality gates уменьшают риск инцидента, но замедляют delivery. Нужен баланс через risk-tier policies и автоматизированные проверки.

Типичные антипаттерны

Feature logic дублируется в train notebook и production code без общего registry и versioning.

Модель деплоится без canary/shadow проверки и без fallback, что делает инцидент мгновенно продуктовым.

Нет point-in-time контроля: в train попадают future-сигналы, а в проде качество резко падает.

Drift мониторинг включен только на model output, без контроля входных feature distributions.

Рекомендации

Фиксируйте контракты pipeline: schema, ownership, SLO, rollback-процедуры и runbook для каждого этапа.

Собирайте единый lineage граф: source data -> features -> model version -> release decision.

Выделяйте минимум два режима деградации: fallback model и rule-based baseline.

Закладывайте budget-aware inference: ограничения по latency/cost и приоритизация критичных surface.

Что проговорить на интервью

  • Как в вашей схеме предотвращается training-serving skew и data leakage?
  • Какие quality gates блокируют rollout, и какие сигналы считаются допустимыми для canary?
  • Как меняется архитектура при росте inference QPS в 10x?
  • Какие SLO/метрики мониторятся end-to-end: data lag, feature freshness, model quality, latency, fallback rate?

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки

System Design Space

© 2026 Александр Поломодов