System Design Space
Граф знанийНастройки

Обновлено: 2 июня 2026 г. в 19:30

ML Ops Pipeline

сложный

Кейс про MLOps-контур: данные, признаки, обучение, реестр моделей, поэтапный запуск, рабочий вывод и мониторинг дрейфа как единая инженерная система.

ML Ops Pipeline усложняется не внутри одного запуска обучения, а там, где версии данных, выпуск модели и эксплуатация начинают жить с разной скоростью.

Глава помогает связать приём данных, обучение, реестр моделей, рабочий вывод и сигналы дрейфа в одну инженерную систему, которую можно безопасно выпускать и откатывать.

В интервью и инженерных обсуждениях этот кейс особенно полезен для разговора о воспроизводимости, дисциплине выпуска и ответственности команды после релиза.

Паритет обучения и сервинга

Контролируйте консистентность признаков и схему данных между обучением и рабочим контуром.

Безопасность запуска

Поэтапный запуск, теневой режим, откат и оповещение о дрейфе должны быть частью базовой архитектуры.

Качество данных

Нужны защитные ограничения для свежести, происхождения данных и предотвращения расхождения между обучением и сервингом.

Эффективность платформы

Оптимизируйте стоимость конвейеров, хранения признаков и задержку вывода модели.

Связанная глава

Machine Learning System Design

Фреймворк для ML-кейсов: требования, метрики, данные и эксплуатационные риски.

Читать обзор

ML Ops Pipeline — это кейс не про один training job, а про инженерную систему, которая должна довести модель от данных до стабильного релиза и пережить следующий цикл изменений. На интервью здесь важно показать, что вы умеете собирать весь : данные, обучение, , , выпуск и реакцию на проблемы после релиза.

Границы разбора

Покрываем в этой главе

  • От приёма данных и обучения до выпуска, рабочего вывода, мониторинга и следующего цикла обучения.
  • Управление выпуском: проверки качества, сценарии ограниченного запуска и готовность к откату.
  • Операционная модель: SLO, владельцы этапов, инструкции на случай сбоя и реакция на дрейф или инциденты качества.

Что оставляем за рамками

  • Низкоуровневый API-дизайн реестра признаков и эволюции схем на уровне конкретных контрактов.
  • Детали онлайн-слоя признаков: дизайн ключей, сроки жизни данных (TTL), защита от горячих ключей и внутренняя реализация кэшей.
  • Глубокая механика процессов материализации и разрешения конфликтов между batch- и stream-обновлениями.

Детальный разбор рабочей архитектуры и контрактов сервинга вынесен в Feature Store & Model Serving.

Функциональные требования

  • Собрать единый контур от сырых событий и данных до рабочего модели.
  • Обеспечить обучения: версии датасетов, определений признаков и артефактов модели должны быть явными.
  • Поддержать моделей с безопасным .
  • Замкнуть : онлайн-метрики, сигналы качества, и новые циклы обучения.

Нефункциональные требования

  • p95 онлайн-вывода должна быть ниже 150 мс для пользовательских сценариев.
  • SLA по свежести признаков: 1-5 минут для критичных поведенческих сигналов.
  • Доступность контура вывода 99.95% с деградацией через и правило-ориентированное .
  • Полная прослеживаемость: , версии признаков, модели и решения о выпуске.

Масштаб и предположения

ПараметрОценкаПочему важно
DAU8 млнПродукт работает с постоянным потоком пользовательских событий и персонализацией в реальном времени.
Пиковый QPS вывода120 тыс.Нагрузка распределена между несколькими поверхностями: лентой, поиском и рекомендациями.
Обновления признаков1,5 млрд в деньСобытия нужно быстро материализовать в онлайн-контуре, иначе модель начинает отставать от продукта.
Частота переобученияежедневно + внеплановые запускиМодель должна успевать за сезонностью, маркетинговыми кампаниями и изменением поведения пользователей.
Размер артефакта модели2-8 ГБНужны надёжные правила хранения, доставки и отката артефактов между окружениями.

Референсная архитектура MLOps-контура

Общая схема контура

Первая схема показывает общую архитектуру MLOps-контура: где входят данные, где собираются признаки, где обучение встречается с , и где решения о выпуске соединяются с рабочим контуром.

Слои MLOps-контура

Источники и ingest

Сырые события, batch-выгрузки и потоковые сигналы сходятся в общий контур приёма и первичной проверки.

batch / streamприём данныхпроверки качестваbackfill
Переход этапа
Слой данных и признаков

Преобразования, снимки и онлайн-запросы должны сохранять один смысл признаков для обучения и рабочего контура.

offline storeonline storeлогика признаковсвежесть
Переход этапа
Обучение и проверка

Модель обучается на воспроизводимом срезе данных, проходит обучение и проверку до регистрации.

train / evalэкспериментывоспроизводимостьзащитные ограничения
Переход этапа
Реестр и выпуск

Версии модели, конфигурации и правила согласования собираются в один контур управления выпуском и откатом.

реестр моделейсогласованиеcanary / shadow / A-Bоткат
Переход этапа
Рабочий контур и обратная связь

Контур вывода, деградация, метрики качества и сигналы дрейфа замыкают цикл и подсказывают следующий запуск.

онлайн-выводрезервный сценариймониторинг дрейфасигналы переобучения

Что держать под контролем

Схему удобно читать как стек слоёв: каждый уровень передаёт дальше не только артефакты, но и ограничения на качество, выпуск и рабочую устойчивость.

Согласованность данных и признаков

срез данныхмомент наблюдениясогласованность офлайна и онлайна

Контроль выпуска

реестр моделейпроверки качестваcanary / shadow / A-Bоткат

Рабочая обратная связь

задержка и стоимостьрезервный сценариймониторинг дрейфасигналы переобучения

Путь артефакта и решения о выпуске

Вторая схема показывает путь конкретной версии: после упаковки она проходит , или эксперимент и только затем либо продвигается дальше, либо останавливается.

Путь артефакта и решения о выпуске

1
1. Срез данных и сигналов

Команда фиксирует версии источников, временное окно и правила отбора, чтобы не спорить потом о том, на чём обучалась модель.

версии источниковокно данныхвыборка
Следующий шаг
2
2. Построение признаков с корректным моментом наблюдения

Пайплайн строит признаки так, чтобы в обучение не попала будущая информация и чтобы офлайн- и онлайн-смысл совпадали.

логика признаковмомент наблюдениясогласованность офлайна и онлайна
Следующий шаг
3
3. Обучение и проверка

Модель проходит обучение, eval, sanity checks и качественные пороги до того, как её вообще можно будет выпускать.

train / evalпроверки качествазащитные ограничения
Следующий шаг
4
4. Упаковка и регистрация модели

Артефакт, конфигурация, зависимости и метаданные версии публикуются вместе, чтобы выпуск можно было воспроизвести и откатить.

пакет артефактаконфигурацияреестр моделей
Следующий шаг
5
5. Теневой режим / канареечный запуск / эксперимент

Новая версия сначала набирает доказательства на ограниченном трафике и только потом претендует на полный выпуск.

теневой режимканареечный запускA/B
Следующий шаг
6
6. Рабочий вывод и метрики

Система отслеживает задержку, ошибки, качество, долю резервного сценария и поведение критичных сегментов уже на живом трафике.

задержкакачестводоля резервного сценария
Следующий шаг
7
7. Продвижение, откат или переобучение

По итогам выпуска команда либо закрепляет версию, либо откатывает её, либо запускает следующий цикл улучшений.

продвижениеоткатпереобучение

Как читать путь

Слева показан маршрут одной версии от среза данных до решения о выпуске. Справа — какие доказательства команда собирает на каждом участке.

До регистрации

срез данных и сигналовлогика признаковобучение и проверки

Перед полным запуском

упаковка артефактатеневой режим / canary / A-Bготовность к откату

После выхода в рабочий контур

задержка и качестводоля резервного сценарияпродвижение / откат / переобучение

Если читать обе схемы вместе, видно, что MLOps-пайплайн ломается не внутри одной модели, а на стыке данных, выпуска и рабочего контура, когда версии модели, признаки и правила деградации перестают двигаться согласованно.

Ключевые компромиссы

Свежесть сигналов против воспроизводимости

Чем быстрее обновляются признаки и модели, тем лучше система реагирует на новый сигнал, но тем сложнее повторить старый результат и расследовать регрессию.

Простота batch-контуров против скорости stream-контуров

Пакетный контур дешевле и проще в эксплуатации, но проигрывает по актуальности. Потоковый контур уменьшает лаг, зато резко повышает операционную сложность.

Одна модель против маршрутизации по сегментам

Одна универсальная модель проще в управлении, но сегментная маршрутизация часто выигрывает по качеству ценой более сложного выпуска и контроля версий.

Жёсткие защитные ограничения против скорости выпуска

Сильные проверки качества уменьшают риск инцидента, но замедляют выпуск. Баланс обычно достигается через автоматизацию и разные уровни риска для разных изменений.

Типичные антипаттерны

Дублировать логику признаков между исследовательским кодом и рабочим контуром без общего источника истины.

Выпускать модель без теневого режима, раннего ограниченного запуска и резервного сценария, превращая любой сбой в продуктовый инцидент.

Не контролировать момент наблюдения данных и случайно подмешивать в обучение будущую информацию.

Следить только за выходом модели и не замечать, как меняются входные признаки, качество данных и задержка их обновления.

Рекомендации

Фиксируйте контракты контура: схема данных, владелец этапа, SLO, процедура отката и инструкция действий на случай сбоя должны быть явными.

Собирайте единый граф зависимостей: источник данных -> признаки -> версия модели -> решение о выпуске.

Держите минимум два режима деградации: резервный сценарий модели и правило-ориентированное базовое решение.

Ограничения по задержке и стоимости должны быть частью архитектуры вывода, а не послерелизной оптимизацией.

Что проговорить на интервью

  • Как в вашей схеме предотвращаются расхождения между обучением и рабочим контуром и ?
  • Какие проверки реально могут остановить выпуск, и какие сигналы допустимы на раннем этапе запуска?
  • Как меняется архитектура при росте QPS вывода в 10 раз?
  • Какие метрики вы мониторите по всей цепочке: лаг данных, свежесть признаков, качество модели, задержка и доля резервного сценария?

Связанные главы

  • Feature Store & Model Serving - Детальнее про согласованность офлайн- и онлайн-контуров, контракты на признаки и рабочий путь модели.
  • Recommendation System - Прикладной ML-кейс, где качество модели связывается с генерацией кандидатов, ранжированием и продуктовым эффектом.
  • Архитектура конвейеров данных: ETL и ELT - Фундамент для приёма данных, backfill-процедур, оркестрации и проверок качества.
  • Observability & Monitoring Design - Как проектировать SLO, алертинг и разбор инцидентов для рабочих систем.
  • ML-платформа в Т-Банке - Реальный платформенный кейс с эволюцией ML-процессов в большой компании.
  • Precision и recall на пальцах - База для интерпретации качества модели до выпуска и после релиза.

Чтобы отмечать прохождение, включи трекинг в Настройки