ML Engineering

19 глав

На этой странице собраны все главы темы. Используйте поиск и фильтры по типу и сложности, чтобы найти нужный материал внутри раздела.

Сложность:

Показываются только главы, которые одновременно соответствуют выбранному типу материала и уровню сложности.

ML Engineering: как проектировать модели, конвейеры и рабочий контурлёгкий

Вводная карта ML Engineering: как связать качество модели с ценой ошибок, выпуском, сервингом, платформенной ответственностью и эксплуатацией в продукте.

Machine Learning System Design (short summary)сложный

Практическое руководство от Babushkin и Kravchenko: анализ проблемы, метрики, работа с данными, типичные ошибки и подготовка к ML интервью.

Precision и recall на пальцахлёгкий

Простое объяснение точности, полноты, выбора порога, ROC AUC и PR AUC на примере истории про Васю и волка.

ML Lifecycle: от данных и обучения до рабочей среды и контуров обратной связисредний

Практическая карта жизненного цикла ML-системы: контракты на данные, обучение, проверка качества, реестр моделей, выпуск, мониторинг и переобучение.

Выпуск моделей, калибровка и контуры экспериментовсредний

Как безопасно выпускать ML-модели: калибровка, настройка порогов, теневой режим, канареечный запуск, A/B-эксперименты и откат.

Сервинг моделей и архитектура выводасредний

Как проектировать рабочий контур вывода для ML- и LLM-систем: онлайновый, пакетный и потоковый режимы, автомасштабирование, маршрутизация CPU/GPU, деградация и компромиссы между задержкой и стоимостью.

Оптимизация инференса больших языковых моделейсложный

Внутренности LLM-движка инференса: prefill против decode, метрики TTFT/TPOT и goodput, KV-cache и PagedAttention, continuous batching, квантизация (GPTQ/AWQ/FP8), спекулятивное декодирование, параллелизм и экономика стоимости за токен.

Векторный поиск и приближённые ближайшие соседи (ANN)средний

Слой векторного поиска по существу: семейства индексов ANN (IVF, HNSW), сжатие (PQ, IVF-PQ, ScaNN), метрики расстояния, компромиссы recall/latency/memory, гибридный поиск с BM25 и RRF, фильтрация по метаданным, масштабирование и системы (FAISS, pgvector, Milvus, Qdrant, Weaviate).

Пост-тренинг LLM: SFT, LoRA и выравнивание (DPO/RLHF)средний

Как из предобученной base-модели получают полезного и выровненного ассистента: обучение следованию инструкциям (SFT), эффективный файнтюнинг (LoRA, QLoRA) и выравнивание под предпочтения (RLHF и DPO). Конвейер pretraining → SFT → выравнивание, развилка «файнтюнить vs prompt/RAG», стоимость и оценка, частые ошибки.

Стоимость и маршрутизация LLMсредний

Экономика LLM-приложений: из чего складывается стоимость (токены, размер модели, контекст, KV-кэш, hosted против self-hosted) и как маршрутизировать запросы между моделями — каскады, кэширование, сокращение токенов и LLM-шлюз.

Model Context Protocol (MCP): стандарт подключения инструментовсредний

Как MCP — открытый протокол Anthropic (ноябрь 2024) — стандартизирует подключение LLM-приложений к инструментам и данным: проблема M×N, архитектура host/клиент/сервер, JSON-RPC 2.0 со stdio и Streamable HTTP, примитивы tools/resources/prompts, безопасность и эксплуатация.

Человек в контуре, качество данных и операционный цикл AIсредний

Операционный контур ML-систем: сбор обратной связи, процессы разметки, качество данных, разбор ошибок, расследование дрейфа и сигналы к переобучению.

ML Ops Pipelineсложный

Кейс про MLOps-контур: данные, признаки, обучение, реестр моделей, поэтапный запуск, рабочий вывод и мониторинг дрейфа как единая инженерная система.

Хранилище признаков и сервинг моделейсложный

Кейс про хранилище признаков и сервинг моделей: как сохранить один смысл признаков между обучением и рабочим контуром, выдержать корректность по моменту наблюдения и контролировать расхождение между офлайном и онлайном.

История появления Google TPU и их эволюциисредний

Как Google прошла путь от TPU v1 для вывода до Ironwood: архитектурные компромиссы, экономика вычислений и отличие TPU-подхода от GPU.

История AI-ускорителей NVIDIAсредний

Как NVIDIA прошла путь от программируемых GPU и CUDA до Tensor Cores, DGX, H100, Blackwell и rack-scale AI-инфраструктуры: архитектурные развилки, экосистема и экономика вычислений.

ML-платформа в Т-Банке: всеобщее благо или лучше не надосредний

Разбор интервью о развитии ML-платформы в Т-Банке: как перейти от ручного SSH-подхода к платформенной инженерии, общим потокам данных и зрелой эксплуатации моделей.

ML-система оценки мошенничества и рискасложный

Практический ML-кейс: путь скоринга в реальном времени, ручная проверка, запаздывающие метки, настройка порогов, дрейф и следующий цикл калибровки.

Архитектура ранжирования и рекомендаций для ML-системсредний

Как проектировать контур рекомендаций: генерацию кандидатов, ранжирование, слой правил, свежесть данных, обратную связь и следующий цикл обучения.