Эта глава темы 13 фокусируется на RAG-архитектуре, retrieval quality и управлении контекстом.
В реальном проектировании AI/ML-систем материал помогает связывать модельные решения с платформенной архитектурой: data pipeline, inference path, стоимость эксплуатации и требования надежности.
Для System Design interview глава полезна тем, что дает понятный язык объяснения ML-компромиссов: качество модели, latency/throughput, безопасность данных, наблюдаемость и эволюция решения в production.
Практическая польза главы
Практика проектирования
Переводите знания о RAG-архитектуре, retrieval quality и управлении контекстом в архитектурные решения по data flow, model serving и контрольным точкам качества.
Качество решений
Оценивайте систему через метрики модели и платформы одновременно: precision/recall, latency, drift, стоимость и операционные риски.
Interview articulation
Структурируйте ответ как цепочку data -> model -> serving -> monitoring, показывая где возникают ограничения и как вы ими управляете.
Trade-off framing
Явно фиксируйте компромиссы по RAG-архитектуре, retrieval quality и управлении контекстом: скорость экспериментов, качество, explainability, resource budget и сложность поддержки.
Primary source
RAG paper (2020)
Базовая работа, которая формализовала подход retrieval-augmented generation.
GenAI/RAG System Architecture - это не один сервис вокруг LLM, а связка нескольких контуров: ingestion данных, retrieval, orchestration генерации, guardrails и операционная оценка качества. Система становится production-ready только когда эти контуры проектируются как единый контракт по latency, quality и cost.
Ниже - практический blueprint, который можно использовать как стартовую схему для корпоративного AI-assistant, knowledge copilot или customer support бота.
Референсная архитектура GenAI/RAG
Knowledge ingestion
- Соберите источники (docs, runbooks, тикеты, wiki) и заведите ownership на каждый источник.
- Постройте очистку и нормализацию текста до индексации: убирайте дубли, шум и устаревшие версии.
- Используйте версионирование документов и incremental reindex, чтобы не «ломать» поиск при каждом деплое.
Retrieval plane
- Комбинируйте dense + lexical retrieval, чтобы снизить риск пропуска критичных фрагментов.
- Держите metadata filters (tenant, product, language, ACL) в обязательном query-contract.
- Вводите reranking только после измерений: это часто лучший прирост качества при умеренной цене.
Generation orchestration
- Соберите prompt-template как код: системный промпт, policy-блок, retrieved context, user intent.
- Задайте budget на токены и latency до вызова модели, иначе tail latency быстро выходит из SLO.
- Добавьте fallback: cache ответов, smaller model, или ответ с частичной деградацией при перегрузке.
Guardrails and governance
- Проверяйте запрос и ответ на PII/секреты, policy violations и prompt injection.
- Применяйте authorization на retrieval-этапе, а не после генерации ответа.
- Логируйте решение guardrails с reason-codes для расследований и аудита.
Evaluation and operations
- Разделите offline eval (retrieval/generation quality) и online eval (task success, CSAT, containment rate).
- Считайте cost per resolved task, а не только cost per 1K tokens.
- Держите replay-наборы и regression checks, чтобы безопасно обновлять embeddings, prompt и модели.
Request path: от вопроса до grounded-ответа
1) Intent и policy pre-check
~30-80 msНормализация запроса, определение use-case и проверка policy до обращения к retrieval. На этом шаге удобно отсеивать запросы вне домена.
2) Retrieval + rerank
~80-250 msПоиск релевантных фрагментов с учетом ACL и контекста пользователя. Reranker повышает точность топ-k перед генерацией.
3) Prompt assembly + generation
~300-1500 msФормирование финального prompt-контракта, вызов LLM, контроль max tokens и stop conditions.
4) Post-check + response shaping
~40-120 msПроверки ответа (safety/compliance), добавление цитат/ссылок на источники и форматирование под UI-клиент.
SLO и capacity baseline
Latency
P95 < 2.0s
Декомпозируйте бюджет на retrieval, model inference и post-processing по отдельности.
Quality
Grounded answer rate > 90%
Оценивайте наличие опоры на retrieved context, а не только «красивость» текста.
Economics
Cost/task в целевом коридоре
Контролируйте стоимость через routing моделей, cache и лимиты контекста.
Рекомендации
- Проектируйте RAG как две системы: data platform (ingestion/index) и online serving (retrieval/generation).
- Держите retrieval observability первого класса: hit@k, miss reasons, latency и quality по сегментам.
- Стабилизируйте contracts: schema чанков, query filters, prompt slots и формат ответа для клиентов.
- Перед rollout новой модели проводите shadow-трафик и offline replay на эталонном наборе задач.
Частые ошибки
- Оценивать систему только BLEU/ROUGE без продуктовых метрик и проверки groundedness.
- Индексировать «как есть» без очистки, дедупликации и контроля версии источников.
- Пытаться чинить quality только prompt'ом, игнорируя качество retrieval и data freshness.
- Применять access-control после генерации ответа, а не до извлечения контекста.
Мини-чеклист запуска
- Есть каталог источников знаний и назначенные владельцы данных.
- Для каждого use-case определены quality metrics, latency SLO и cost guardrails.
- Включены policy-проверки на входе и выходе, а также аудит логов решений.
- Настроены canary/shadow rollout и регрессионные тесты на replay-наборе.
- Сделаны fallback-сценарии для отказов retrieval, reranker и LLM-провайдера.
Источники
Связанные главы
- AI Engineering (short summary) - Production-рамка для AI-приложений: оценка, deployment и эксплуатация.
- Hands-On Large Language Models (short summary) - База по embeddings, retrieval и устройству LLM-систем.
- Prompt Engineering for LLMs (short summary) - Контракт prompt-а и практики context engineering для RAG.
- An Illustrated Guide to AI Agents (short summary) - Следующий шаг после RAG: tool use, planning и orchestration.
- Data Governance & Compliance - Контроль PII, lineage и регуляторные требования для knowledge-base.
