Книга «Machine Learning System Design» сильна не пересказом алгоритмов, а тем, что показывает полный жизненный цикл ML-системы: от анализа проблемного пространства и вопроса «нужен ли здесь вообще ML?» до данных, метрик, релиза и последующей эксплуатации. Эта глава как раз разбирает ее как инженерную книгу про систему целиком, а не только про модель.
В реальной работе она полезна тем, что собирает в одну рамку бизнес-цель, качество модели, данные, стоимость вычислений и надежность продакшн-контура. Особенно ценно, что авторы много говорят не только про обучение, но и про разметку, анализ ошибок, выпуск новых версий, мониторинг и типичные сбои ML-проекта.
Для подготовки к интервью эта глава важна тем, что дает более зрелый язык разговора об ML System Design: не сводить ответ к выбору модели, а обсуждать метрики, данные, offline и online оценку, задержки, ограничения инференса (inference) и эксплуатационные компромиссы.
Практическая польза главы
ML framing
Помогает связать бизнес-цель, ML-метрики и ограничения inference/serving в единую систему решений.
Data/feature контур
Учит строить корректный контракт между offline training и online serving путями.
Надежность пайплайна
Подсвечивает drift, skew и rollback как ключевые риски production ML-систем.
Interview differentiation
Даёт язык, который отличает ML System Design от классического backend case.
Оригинал
Telegram: book_cube
Оригинальный пост с разбором книги.
Machine Learning System Design
Авторы: Arseny Kravchenko, Valerii Babushkin
Издательство: Manning Publications
Объём: 376 страниц
Практическое руководство от Babushkin и Kravchenko: анализ проблемы, метрики, работа с данными, типичные ошибки и подготовка к ML интервью.
Почему эта книга важна
Большинство ML-курсов фокусируются на моделях и алгоритмах. Эта книга заполняет пробел — показывает полный жизненный цикл ML-системы: от постановки задачи и анализа проблемного пространства до релиза и поддержки.
Valerii Babushkin (Senior Principal в BP) и Arseny Kravchenko(Senior Staff ML Engineer в Instrumental) наполнили книгу "campfire stories" — реальными историями из практики, которые помогают понять контекст решений.
Фреймворк проектирования ML-систем
Книга предлагает пошаговый фреймворк для создания ML-систем любого масштаба:
1. Анализ проблемы
- •Определение бизнес-целей
- •Анализ проблемного пространства
- •Нужен ли вообще ML?
2. Метрики и оценка
- •Выбор метрик качества
- •Критерии успеха
- •Baseline и benchmarks
3. Работа с данными
- •Сбор и разметка данных
- •Error analysis
- •Feature engineering
4. Релиз и поддержка
- •Deployment strategies
- •Мониторинг и алерты
- •Итеративные улучшения
Ключевые темы книги
Анализ проблемного пространства
Прежде чем писать код, нужно понять проблему. Авторы учат:
- Как определить, что ML действительно нужен
- Как сформулировать ML-задачу из бизнес-требований
- Как оценить feasibility решения до начала разработки
- Как выбрать между разными подходами (supervised, unsupervised, RL)
Метрики и критерии оценки
Выбор правильных метрик критичен для успеха проекта:
- Связь бизнес-метрик и ML-метрик
- Trade-offs между precision/recall, latency/accuracy
- Offline vs online evaluation
- A/B тестирование ML-систем
Решение проблем с данными
Данные — главный источник проблем в ML. Книга разбирает:
- Data gathering: где и как собирать данные
- Data labeling: стратегии разметки, краудсорсинг
- Error analysis: систематический поиск ошибок модели
- Feature engineering: создание информативных признаков
- Data augmentation и синтетические данные
Типичные ошибки в ML-разработке
Авторы собрали каталог распространённых pitfalls:
- Data leakage — когда тестовые данные "утекают" в обучение
- Неправильный сплит данных (temporal leakage)
- Overfitting на validation set
- Игнорирование edge cases и distribution shift
- Premature optimization модели вместо улучшения данных
Приоритизация задач
Одна из уникальных особенностей книги — детальные чеклисты и рекомендации по приоритизации на разных стадиях проекта:
- Валидация гипотезы
- Простой baseline
- Quick wins
- Error analysis
- Улучшение данных
- Feature engineering
- Мониторинг
- Масштабирование
- Долгосрочная поддержка
Campfire Stories
Уникальная особенность книги — "campfire stories": реальные истории из практики авторов, которые иллюстрируют теоретические концепции.
Эти истории показывают, как принимались решения в реальных проектах, какие ошибки были допущены и какие уроки извлечены. Это делает книгу практичной и запоминающейся.
Связанная глава
Подходы к проведению интервью
7-шаговый фреймворк System Design Interview.
ML System Design Interview Tips
Книга включает специальный раздел о подготовке к ML System Design интервью:
Как структурировать ответ
Типичные вопросы и ожидания
Clarifying questions — что спрашивать
Trade-offs и их обоснование
Работа с неопределённостью
Глубина vs широта обсуждения
Ключевые выводы
Начинайте с проблемы, не с модели. Глубокий анализ проблемного пространства важнее выбора алгоритма.
Simple baseline first. Простая модель помогает понять задачу и устанавливает точку отсчёта.
Data > Model complexity. Улучшение данных почти всегда даёт больше, чем усложнение модели.
Error analysis — ваш друг. Систематический анализ ошибок показывает, куда направить усилия.
Метрики должны отражать бизнес-цели. Оптимизация не той метрики — частая причина провала проектов.
Планируйте maintenance с первого дня. ML-система — не разовый проект, а живой продукт.
Связанная глава
Специфика ML-систем
RADIO для frontend, offline-first для mobile, Feature Store для ML.
Для кого эта книга
- ML Engineers, которые хотят выйти за пределы "обучить модель" и понять полный цикл разработки ML-системы
- Data Scientists, переходящие к production ML и желающие понять инженерную сторону процесса
- Те, кто готовится к ML System Design интервью в FAANG и других технологических компаниях
- Tech Leads и Managers, которым нужно понимать, как планировать и оценивать ML-проекты
Связанные главы
- Зачем читать книги по System Design Interview - Контекст раздела и место книги про ML System Design в общем треке подготовки.
- Зачем знать ML и AI инженеру - Вводная карта AI/ML-раздела: где ML добавляет ценность и какие ограничения влияют на архитектуру.
- AI Engineering (short summary) - Production-практики для AI-продуктов: evaluation, deployment, observability и эксплуатация.
- AI Engineering Interviews (short summary) - Набор interview-вопросов и expected answer shape для подготовки к ML/AI-собеседованиям.
- Подходы к проведению интервью по проектированию - 7-шаговый каркас ответа, который хорошо переносится и на ML System Design интервью.
- Специфика проектирования разных систем (backend, frontend, mobile, data, ml/ai) - Сравнение ML/AI-систем с другими доменами и ключевые архитектурные отличия.
- Precision и recall на пальцах - Быстрый разбор метрик и trade-offs качества, которые напрямую влияют на ML System Design решения.
- ML-платформа в Т-Банке: всеобщее благо или лучше не надо - Реальный опыт platform engineering для ML: пайплайны, инфраструктура и эксплуатационные компромиссы.
- История появления Google TPU и их эволюции - Аппаратный контекст ML-систем: как ускорители влияют на latency, throughput и экономику inference/training.
