Программирование смыслов
Разбор доклада Алексея Гусакова (Яндекс): как продуктовая разработка сдвигается от детального кодирования алгоритмов к проектированию намерений, ограничений и reward-циклов.
Источник
Telegram: book_cube
Обзор доклада с инженерными и продуктово-архитектурными выводами.
Что такое «программирование смыслов»
Главная идея: вы программируете не только кодовые ветки, но и поведение модели через намерения, ограничения, контекст знаний, инструменты и метрики успеха.
В этой парадигме ценность создаётся итеративным циклом гипотеза → прототип → измерение → дообучение → интеграция, а не единичной поставкой «идеального алгоритма».
Переход по шагам
2022: «Гуру по товарам» и первые ошибки
Диалоговый помощник для выбора товаров показал, что «опросник под видом диалога» раздражает пользователей. Ошибки стали источником сигналов о полезном UX.
Поворот после выхода ChatGPT
Вместо «большого магического релиза» команда выбрала инкрементальный путь: улучшать существующую выдачу небольшими проверяемыми шагами.
Ответы из структурированных источников
Модель планирует, какие документы использовать, и собирает ответ из проверяемых фрагментов, а не «генерирует из воздуха».
Система ограничений вместо одной цели
Критерии качества задаются правилами и метриками: правдивость, длина, персонализация, разнообразие, запрет на вымышленные факты.
Повторяемый цикл обучения
AI-тренеры оценивают ответы, обучаются генеративная модель и reward model, изменения выкатываются и снова измеряются на обратной связи.
Оркестрация нескольких моделей
Даже без изменения базовых весов качество растёт за счёт пайплайна из нескольких моделей, инструментов и дополнительного compute.
Связанная глава
AI Engineering
Системный взгляд на жизненный цикл AI-продукта в production.
ML как продуктовый конвейер
1. Оценка
AI-тренеры размечают и ранжируют ответы.
2. Обучение
Обновляются генеративная модель и reward model.
3. Выкатка
Изменения уходят в онлайн-эксперименты и A/B.
4. Обратная связь
Метрики и фидбек замыкают следующий цикл.
Типовые проблемы и исправления
Reward-hacking
Симптом: Модель подстраивается под оценщик: искусственно удлиняет ответы, копирует источники, добавляет лишние дисклеймеры.
Фикс: Регуляризация длины, штрафы за копипасту и канцелярит, целевая настройка стиля и контекстное использование дисклеймеров.
Нечёткие продуктовые требования
Симптом: Инструкции уровня «будь умным и полезным» не превращаются в стабильный продуктовый результат и воспроизводимый pipeline.
Фикс: Формализованные intents, ограничения, тестовые наборы и метрики качества как обязательные артефакты релиза.
Смежная тема
Observability & Monitoring Design
Как строить наблюдаемость и алертинг для production-систем.
Что это меняет в system design
- Prompt, rules и reward-model становятся такими же артефактами системы, как API-контракты и исходный код.
- Нужен контур наблюдаемости для качества ответов: правдивость, длина, дублирование, CTR/довлетворённость, доля эскалаций.
- Продуктовая и ML-разработка сливаются в единый цикл: гипотеза -> эксперимент -> измерение -> дообучение -> rollout.
- Ссылочная база и retrieval-контур критичны для верифицируемости: ассистент должен опираться на проверяемые источники.

