System Design Space
Граф знанийНастройки

Обновлено: 7 апреля 2026 г. в 20:20

Enterprise AI Copilot

сложный

Практический GenAI-кейс: корпоративный AI-ассистент для нескольких арендаторов с извлечением контекста с учётом ACL, ссылками на источники, оцениванием, резервными цепочками и ограничениями по стоимости.

Корпоративный AI-ассистент становится сложной системой в тот момент, когда к хорошему ответу добавляются границы арендаторов, ACL, ссылки на источники и стоимость эксплуатации.

Глава показывает, как извлечение контекста для нескольких арендаторов, проверки безопасности, резервные цепочки и контур качества превращают корпоративного ассистента из демо в управляемый продукт.

Для архитектурного разбора это удобный кейс, чтобы обсуждать опору на источники, радиус ошибки, соблюдение политик и цену неверного ответа в корпоративном контуре.

Практическая польза главы

Практика проектирования

Переводите знания о корпоративных AI-ассистентах, мультиарендном RAG и контуре управления знаниями в архитектурные решения для потоков данных, сервинга моделей и контрольных точек качества.

Качество решений

Оценивайте систему через метрики модели и платформы одновременно: precision/recall, задержки, дрейф, стоимость и операционные риски.

Аргументация на интервью

Структурируйте ответ как цепочку данные -> модель -> сервинг -> мониторинг, показывая, где возникают ограничения и как вы ими управляете.

Явные компромиссы

Явно фиксируйте компромиссы по корпоративных AI-ассистентах, мультиарендном RAG и контуре управления знаниями: скорость экспериментов, качество, объяснимость, бюджет ресурсов и сложность поддержки.

Связанная глава

GenAI/RAG System Architecture

Рабочая рамка для извлечения контекста, ссылок на источники, защитных ограничений и контура качества.

Читать обзор

Enterprise AI Copilot — это не просто чат поверх корпоративных документов. На практике это система знаний для нескольких компаний и команд с , ссылками на источники, , оцениванием и контролем стоимости вывода модели. На интервью важно показать, что вы проектируете не демонстрационный прототип, а управляемый корпоративный контур с понятными рисками и резервными сценариями.

Функциональные требования

  • Поддерживать корпоративного AI-ассистента для поиска ответов по внутренней базе знаний, инструкциям для дежурных, политикам и сервисной документации.
  • Учитывать границы арендаторов, ACL и ролевые ограничения уже на слое извлечения контекста.
  • Показывать ссылки на источники и фрагменты документов, чтобы пользователь видел, на чем основан ответ.
  • Поддерживать резервный сценарий: кэшированные ответы, режим только поиска или эскалацию к человеку.
  • Собирать контур обратной связи: положительные и отрицательные оценки, правки, причину эскалации и неразрешённые намерения.

Нефункциональные требования

  • P95 сквозной задержки ниже 2,5 секунды для интерактивного сценария в рабочем интерфейсе.
  • Контроль стоимости: бюджет на решённую задачу и лимиты на запрос и размер контекста для разных пользовательских сегментов.
  • Надёжная изоляция данных арендаторов и полный журнал аудита по извлечению контекста, защитным ограничениям и ссылкам на источники.
  • Возможность обновлять индекс, политику запросов и модель без простоя сервиса.

Масштаб и предположения

Арендаторы

4k+

Платформа обслуживает нескольких арендаторов с разной структурой данных и разными политиками доступа.

MAU

1.5M

Ассистент используется в поддержке, инженерных командах, юридических процессах и операционных сценариях.

Пиковый QPS

18k

Пики приходятся на рабочее время и всплески использования внутри крупных компаний.

База знаний

10B+ токенов контекста

Нужны инкрементальная загрузка, переиндексация и строгая ответственность за источники знаний.

Референсная архитектура

Ниже показан рабочий контур корпоративного ассистента: от входа пользовательского запроса и политик доступа до вызова модели, ссылок на источники и безопасной деградации.

Клиенты и вход запроса
чатAPIаутентификациянормализация
Переход между слоями
Маршрутизация и политики доступа
правила арендатораACLкласс сценариябюджет
Переход между слоями
Извлечение контекста и сборка ответа
поискпереранжированиефрагментыконтракт ответа
Переход между слоями
Выполнение модели и оркестрация
маршрут LLMCPU/GPUтайм-аутылимит токенов
Переход между слоями
Постобработка и ссылки на источники
цитатыпроверки правилформатированиесигналы уверенности
Переход между слоями
Резервный путь и безопасная деградация
только поисккешэскалацияаудит

Что держать под контролем

Корпоративный AI-ассистент полезно смотреть не как один вызов LLM, а как связанный рабочий контур знаний, доступа, генерации, стоимости и деградации, где ошибка в любом слое ломает доверие ко всей системе.

Бюджет ответа

p95 задержкистоимость задачиразмер контекставремя переранжирования

Доверие и доступ

опора на источникиACLпокрытие ссылкамитенантная изоляция

Устойчивость

частота резервного путирежим только поискаэскалациятайм-ауты провайдера

Путь запроса

Этот путь показывает, где корпоративный AI-ассистент обязан проверить доступ, собрать контекст, ограничить стоимость и вовремя перейти в резервный сценарий вместо рискованного ответа.

Как вопрос проходит через корпоративного AI-ассистента

Синхронный путь от пользовательского вопроса до ответа с контролем доступа и резервным сценарием

Интерактивный прогонШаг 1/5

Активный шаг

1. Приём вопроса и ранние проверки

Система нормализует запрос, определяет сценарий и проверяет, может ли пользователь вообще войти в этот путь без дополнительного согласования.

Основной контроль

Аутентификация, контекст арендатора, классификация сценария и базовые правила входа.

Что сохраняем для аудита

идентификатор арендатора, роль пользователя, нормализованный запрос и версия политики входа.

Когда останавливаем путь

Остановить путь, если пользователь не авторизован, запрос вне домена или вопрос нарушает базовые правила.

Онлайновый путь корпоративного ответа

  • Путь должен проверять доступ до попадания контекста в запрос к модели.
  • Стоимость и размер контекста нужно ограничивать так же жёстко, как и качество ответа.
  • Резервный сценарий должен быть частью продукта, а не аварийной импровизацией.
ACLСсылки на источникиСтоимостьРезервный путь

Где лежат самые важные риски

ACL и изоляция арендаторов не могут быть поздней проверкой

Если контроль доступа выполняется после генерации, модель уже увидела запрещённый контекст. Поэтому авторизация должна быть частью контракта на извлечение контекста.

Ссылки на источники важнее гладкого текста

В корпоративных сценариях ответ без источников чаще бесполезен, чем полезен. Ссылки на источники и проверяемые фрагменты повышают доверие и упрощают проверку.

Резервный сценарий — это часть пользовательского опыта, а не только надёжности

Режим только поиска, заготовка ответа с источниками или эскалация к человеку лучше, чем уверенная галлюцинация или молчание при сбое модели.

Ограничения по стоимости должны быть продуктовым решением

Нельзя оптимизировать стоимость только на уровне модели. Нужны уровни бюджетов, политика маршрутизации, ограничения на размер ответа и продуктовые рамки для дорогих сценариев.

Частые ошибки

Давать ассистенту доступ ко всем документам арендатора без строгого извлечения контекста с учётом ACL и журнала аудита.
Считать высокую долю ответов признаком качества, не измеряя опору на источники, покрытие ссылками на документы и долю реально решённых задач.
Пытаться лечить галлюцинации только текстом запроса, игнорируя качество загрузки знаний и фильтры извлечения контекста.
Не проектировать резервный путь и ручную проверку для сценариев с высокой ценой ошибки.

Рекомендации

Разделите систему на плоскость знаний, плоскость извлечения контекста, плоскость генерации и плоскость качества с отдельными владельцами и SLO.
Сделайте ссылки на источники обязательной частью контракта ответа для чувствительных корпоративных сценариев.
Перед поэтапным запуском новой модели или политики запросов прогоняйте наборы исторических сценариев и теневой трафик на сегментах арендаторов.
Собирайте обратную связь в корзины с кодами причин: промах извлечения контекста, устаревшие данные, блокировка политикой, галлюцинация, неясное намерение.

Что стоит проговорить на интервью

  • Как вы обеспечите, что ассистент не покажет документы, которые пользователь не должен видеть?
  • Какие метрики будете считать: долю ответов с опорой на источники, долю решённых задач, частоту эскалаций и стоимость решённой задачи?
  • Какой резервный сценарий сработает при отказе извлечения контекста, повторного ранжирования или основной LLM?
  • Как изменится архитектура, если один арендатор начнёт генерировать нагрузку в 10 раз выше остальных?

Связанные главы

  • GenAI/RAG System Architecture - Базовый рабочий каркас для извлечения контекста, оркестрации, защитных ограничений и оценивания.
  • Оценивание и наблюдаемость для AI-систем - Как измерять опору на источники, расследовать сбои и собирать контур обратной связи.
  • Data Governance & Compliance - Контроль PII, изоляция арендаторов, происхождение датасетов и аудит для корпоративной базы знаний.
  • Qdrant - Вариант векторного хранилища для поиска по базе знаний и RAG-контура.
  • Сервинг моделей и архитектура вывода - Рабочий контур для маршрутизации LLM, пакетной обработки, резервных сценариев и контроля стоимости.

Чтобы отмечать прохождение, включи трекинг в Настройки