System Design Space

    Глава 187

    Обновлено: 13 февраля 2026 г. в 23:59

    Программирование смыслов

    Прогресс части0/16

    Выступление CTO Яндекса Алексея Гусакова о переходе от кодирования алгоритмов к проектированию намерений, ограничений, метрик и reward-циклов в LLM-продуктах.

    Программирование смыслов

    Разбор доклада Алексея Гусакова (Яндекс): как продуктовая разработка сдвигается от детального кодирования алгоритмов к проектированию намерений, ограничений и reward-циклов.

    Спикер:Алексей Гусаков, CTO бизнес-группы «Поиск и рекламные технологии» (Яндекс)
    Формат:Technology talk / product + ML architecture
    Фокус:LLM assistants, reward modeling, orchestration и измеримое качество ответов

    Источник

    Telegram: book_cube

    Обзор доклада с инженерными и продуктово-архитектурными выводами.

    Читать обзор

    Что такое «программирование смыслов»

    Главная идея: вы программируете не только кодовые ветки, но и поведение модели через намерения, ограничения, контекст знаний, инструменты и метрики успеха.

    В этой парадигме ценность создаётся итеративным циклом гипотеза → прототип → измерение → дообучение → интеграция, а не единичной поставкой «идеального алгоритма».

    Переход по шагам

    2022: «Гуру по товарам» и первые ошибки

    Диалоговый помощник для выбора товаров показал, что «опросник под видом диалога» раздражает пользователей. Ошибки стали источником сигналов о полезном UX.

    Поворот после выхода ChatGPT

    Вместо «большого магического релиза» команда выбрала инкрементальный путь: улучшать существующую выдачу небольшими проверяемыми шагами.

    Ответы из структурированных источников

    Модель планирует, какие документы использовать, и собирает ответ из проверяемых фрагментов, а не «генерирует из воздуха».

    Система ограничений вместо одной цели

    Критерии качества задаются правилами и метриками: правдивость, длина, персонализация, разнообразие, запрет на вымышленные факты.

    Повторяемый цикл обучения

    AI-тренеры оценивают ответы, обучаются генеративная модель и reward model, изменения выкатываются и снова измеряются на обратной связи.

    Оркестрация нескольких моделей

    Даже без изменения базовых весов качество растёт за счёт пайплайна из нескольких моделей, инструментов и дополнительного compute.

    Связанная глава

    AI Engineering

    Системный взгляд на жизненный цикл AI-продукта в production.

    Открыть главу

    ML как продуктовый конвейер

    1. Оценка

    AI-тренеры размечают и ранжируют ответы.

    2. Обучение

    Обновляются генеративная модель и reward model.

    3. Выкатка

    Изменения уходят в онлайн-эксперименты и A/B.

    4. Обратная связь

    Метрики и фидбек замыкают следующий цикл.

    Типовые проблемы и исправления

    Reward-hacking

    Симптом: Модель подстраивается под оценщик: искусственно удлиняет ответы, копирует источники, добавляет лишние дисклеймеры.

    Фикс: Регуляризация длины, штрафы за копипасту и канцелярит, целевая настройка стиля и контекстное использование дисклеймеров.

    Нечёткие продуктовые требования

    Симптом: Инструкции уровня «будь умным и полезным» не превращаются в стабильный продуктовый результат и воспроизводимый pipeline.

    Фикс: Формализованные intents, ограничения, тестовые наборы и метрики качества как обязательные артефакты релиза.

    Смежная тема

    Observability & Monitoring Design

    Как строить наблюдаемость и алертинг для production-систем.

    Открыть главу

    Что это меняет в system design

    • Prompt, rules и reward-model становятся такими же артефактами системы, как API-контракты и исходный код.
    • Нужен контур наблюдаемости для качества ответов: правдивость, длина, дублирование, CTR/довлетворённость, доля эскалаций.
    • Продуктовая и ML-разработка сливаются в единый цикл: гипотеза -> эксперимент -> измерение -> дообучение -> rollout.
    • Ссылочная база и retrieval-контур критичны для верифицируемости: ассистент должен опираться на проверяемые источники.

    Ссылки и связанные главы