GenAI/RAG System Architecture

Почти любая GenAI/RAG-система ломается не в модели, а на стыках ingestion, retrieval, orchestration и контроля качества.

Глава раскладывает production-контур на части и показывает, как knowledge ingestion, ranking, guardrails, evaluation и cost control вместе определяют полезность ответа.

Для design review она особенно ценна тем, что помогает обсуждать RAG как систему с SLO, failure modes и эксплуатационными компромиссами, а не как быстрый proof of concept.

Практическая польза главы

Практика проектирования

Переводите знания о RAG-архитектуре, retrieval quality и управлении контекстом в архитектурные решения по data flow, model serving и контрольным точкам качества.

Качество решений

Оценивайте систему через метрики модели и платформы одновременно: precision/recall, latency, drift, стоимость и операционные риски.

Interview articulation

Структурируйте ответ как цепочку data -> model -> serving -> monitoring, показывая где возникают ограничения и как вы ими управляете.

Trade-off framing

Явно фиксируйте компромиссы по RAG-архитектуре, retrieval quality и управлении контекстом: скорость экспериментов, качество, explainability, resource budget и сложность поддержки.

Primary source

RAG paper (2020)

Базовая работа, которая формализовала подход retrieval-augmented generation.

Открыть статью

GenAI/RAG System Architecture - это не один сервис вокруг LLM, а связка нескольких контуров: ingestion данных, retrieval, orchestration генерации, guardrails и операционная оценка качества. Система становится production-ready только когда эти контуры проектируются как единый контракт по latency, quality и cost.

Ниже - практический blueprint, который можно использовать как стартовую схему для корпоративного AI-assistant, knowledge copilot или customer support бота.

Референсная архитектура GenAI/RAG

Knowledge ingestion

Соберите источники (docs, runbooks, тикеты, wiki) и заведите ownership на каждый источник.
Постройте очистку и нормализацию текста до индексации: убирайте дубли, шум и устаревшие версии.
Используйте версионирование документов и incremental reindex, чтобы не «ломать» поиск при каждом деплое.

Retrieval plane

Комбинируйте dense + lexical retrieval, чтобы снизить риск пропуска критичных фрагментов.
Держите metadata filters (tenant, product, language, ACL) в обязательном query-contract.
Вводите reranking только после измерений: это часто лучший прирост качества при умеренной цене.

Generation orchestration

Соберите prompt-template как код: системный промпт, policy-блок, retrieved context, user intent.
Задайте budget на токены и latency до вызова модели, иначе tail latency быстро выходит из SLO.
Добавьте fallback: cache ответов, smaller model, или ответ с частичной деградацией при перегрузке.

Guardrails and governance

Проверяйте запрос и ответ на PII/секреты, policy violations и prompt injection.
Применяйте authorization на retrieval-этапе, а не после генерации ответа.
Логируйте решение guardrails с reason-codes для расследований и аудита.

Evaluation and operations

Разделите offline eval (retrieval/generation quality) и online eval (task success, CSAT, containment rate).
Считайте cost per resolved task, а не только cost per 1K tokens.
Держите replay-наборы и regression checks, чтобы безопасно обновлять embeddings, prompt и модели.

Request path: от вопроса до grounded-ответа

1) Intent и policy pre-check

~30-80 ms

Нормализация запроса, определение use-case и проверка policy до обращения к retrieval. На этом шаге удобно отсеивать запросы вне домена.

2) Retrieval + rerank

~80-250 ms

Поиск релевантных фрагментов с учетом ACL и контекста пользователя. Reranker повышает точность топ-k перед генерацией.

3) Prompt assembly + generation

~300-1500 ms

Формирование финального prompt-контракта, вызов LLM, контроль max tokens и stop conditions.

4) Post-check + response shaping

~40-120 ms

Проверки ответа (safety/compliance), добавление цитат/ссылок на источники и форматирование под UI-клиент.

SLO и capacity baseline

Latency

P95 < 2.0s

Декомпозируйте бюджет на retrieval, model inference и post-processing по отдельности.

Quality

Grounded answer rate > 90%

Оценивайте наличие опоры на retrieved context, а не только «красивость» текста.

Economics

Cost/task в целевом коридоре

Контролируйте стоимость через routing моделей, cache и лимиты контекста.

Частые ошибки

Оценивать систему только BLEU/ROUGE без продуктовых метрик и проверки groundedness.
Индексировать «как есть» без очистки, дедупликации и контроля версии источников.
Пытаться чинить quality только prompt'ом, игнорируя качество retrieval и data freshness.
Применять access-control после генерации ответа, а не до извлечения контекста.

Мини-чеклист запуска

Есть каталог источников знаний и назначенные владельцы данных.
Для каждого use-case определены quality metrics, latency SLO и cost guardrails.
Включены policy-проверки на входе и выходе, а также аудит логов решений.
Настроены canary/shadow rollout и регрессионные тесты на replay-наборе.
Сделаны fallback-сценарии для отказов retrieval, reranker и LLM-провайдера.

Источники

Связанные главы

AI Engineering (short summary) - Production-рамка для AI-приложений: оценка, deployment и эксплуатация.
Hands-On Large Language Models (short summary) - База по embeddings, retrieval и устройству LLM-систем.
Prompt Engineering for LLMs (short summary) - Контракт prompt-а и практики context engineering для RAG.
An Illustrated Guide to AI Agents (short summary) - Следующий шаг после RAG: tool use, planning и orchestration.
Data Governance & Compliance - Контроль PII, lineage и регуляторные требования для knowledge-base.