Глава 187. Программирование смыслов

Программирование смыслов

Разбор доклада Алексея Гусакова (Яндекс): как продуктовая разработка сдвигается от детального кодирования алгоритмов к проектированию намерений, ограничений и reward-циклов.

Спикер:Алексей Гусаков, CTO бизнес-группы «Поиск и рекламные технологии» (Яндекс)

Формат:Technology talk / product + ML architecture

Фокус:LLM assistants, reward modeling, orchestration и измеримое качество ответов

Источник

Telegram: book_cube

Обзор доклада с инженерными и продуктово-архитектурными выводами.

Читать обзор

Что такое «программирование смыслов»

Главная идея: вы программируете не только кодовые ветки, но и поведение модели через намерения, ограничения, контекст знаний, инструменты и метрики успеха.

В этой парадигме ценность создаётся итеративным циклом гипотеза → прототип → измерение → дообучение → интеграция, а не единичной поставкой «идеального алгоритма».

Переход по шагам

2022: «Гуру по товарам» и первые ошибки

Диалоговый помощник для выбора товаров показал, что «опросник под видом диалога» раздражает пользователей. Ошибки стали источником сигналов о полезном UX.

Поворот после выхода ChatGPT

Вместо «большого магического релиза» команда выбрала инкрементальный путь: улучшать существующую выдачу небольшими проверяемыми шагами.

Ответы из структурированных источников

Модель планирует, какие документы использовать, и собирает ответ из проверяемых фрагментов, а не «генерирует из воздуха».

Система ограничений вместо одной цели

Критерии качества задаются правилами и метриками: правдивость, длина, персонализация, разнообразие, запрет на вымышленные факты.

Повторяемый цикл обучения

AI-тренеры оценивают ответы, обучаются генеративная модель и reward model, изменения выкатываются и снова измеряются на обратной связи.

Оркестрация нескольких моделей

Даже без изменения базовых весов качество растёт за счёт пайплайна из нескольких моделей, инструментов и дополнительного compute.

Связанная глава

AI Engineering

Системный взгляд на жизненный цикл AI-продукта в production.

Открыть главу

ML как продуктовый конвейер

1. Оценка

AI-тренеры размечают и ранжируют ответы.

2. Обучение

Обновляются генеративная модель и reward model.

3. Выкатка

Изменения уходят в онлайн-эксперименты и A/B.

4. Обратная связь

Метрики и фидбек замыкают следующий цикл.

Типовые проблемы и исправления

Reward-hacking

Симптом: Модель подстраивается под оценщик: искусственно удлиняет ответы, копирует источники, добавляет лишние дисклеймеры.

Фикс: Регуляризация длины, штрафы за копипасту и канцелярит, целевая настройка стиля и контекстное использование дисклеймеров.

Нечёткие продуктовые требования

Симптом: Инструкции уровня «будь умным и полезным» не превращаются в стабильный продуктовый результат и воспроизводимый pipeline.

Фикс: Формализованные intents, ограничения, тестовые наборы и метрики качества как обязательные артефакты релиза.

Смежная тема

Observability & Monitoring Design

Как строить наблюдаемость и алертинг для production-систем.

Открыть главу

Что это меняет в system design

Prompt, rules и reward-model становятся такими же артефактами системы, как API-контракты и исходный код.
Нужен контур наблюдаемости для качества ответов: правдивость, длина, дублирование, CTR/довлетворённость, доля эскалаций.
Продуктовая и ML-разработка сливаются в единый цикл: гипотеза -> эксперимент -> измерение -> дообучение -> rollout.
Ссылочная база и retrieval-контур критичны для верифицируемости: ассистент должен опираться на проверяемые источники.

Ссылки и связанные главы

YouTube: «Программирование смыслов»

Оригинальное выступление Алексея Гусакова.

Telegram обзор

Краткий разбор эволюции подхода и инженерных уроков.

Смежные главы: AI Engineering · Prompt Engineering for LLMs · Data Pipeline / ETL / ELT Architecture · Observability & Monitoring Design · Зачем знать ML и AI инженеру.