Первоисточник
O'Reilly Learning
Early Release книги An Illustrated Guide to AI Agents
An Illustrated Guide to AI Agents (Иллюстрированный гайд по AI-агентам)
Авторы: Jay Alammar, Maarten Grootendorst
Издательство: O'Reilly Media, Inc. (Early Release)
Объём: Early Release (в процессе написания)
Jay Alammar и Maarten Grootendorst: практичный гайд по AI agents — memory, tools, planning, reflection, multi-agent coordination и инженерные риски.
ОригиналПочему это логичное продолжение после Hands-On LLM
Если Hands-On Large Language Models отвечает на вопрос "что у модели внутри", то эта книга отвечает на вопрос "как вокруг модели собрать рабочую агентную систему".
Шаг 1: понять движок LLM
Архитектура трансформеров, токены, эмбеддинги, inference-поведение и базовые ограничения модели.
Шаг 2: построить агентное приложение
Memory, tools, planning, reflection и координация нескольких агентов как отдельная инженерная задача.
Связанная глава
AI Engineering
Production-практики для AI-систем: оценка, RAG, agents, finetuning
Что уже готово в книге
Книга находится в статусе Early Release и уже покрывает ядро агентной архитектуры. Сейчас опубликованы основные главы, которые дают цельную ментальную модель AI agents.
Introduction
Зачем нужен агентный подход, где граница между просто LLM-вызовом и полноценной системой.
Составляющие главы:
- Определение agent-системы: различие между одношаговым LLM-вызовом и циклом «план -> действие -> проверка».
- Базовые компоненты: модель, состояние, оркестратор, слой инструментов и наблюдаемость.
- Типовые сценарии, где чат-бота недостаточно: многошаговые задачи, интеграции с API, длительные workflows.
- Архитектурные критерии успеха: надежность, контролируемость, latency/cost и воспроизводимость результата.
Reasoning LLMs
Что меняется, когда модель умеет делать цепочки рассуждений во время inference, и почему это влияет на дизайн пайплайна.
Составляющие главы:
- Разница между «гладким ответом» и реальным reasoning-поведение модели на сложных задачах.
- Test-time reasoning: как глубина рассуждения влияет на качество, время ответа и стоимость.
- Когда выбирать reasoning-модели, а когда достаточно обычного generation-пайплайна.
- Практики контроля качества reasoning: верификация шагов, fallback-стратегии, ограничение compute.
Memory
Short-term и long-term memory, context engineering и практики хранения состояния между шагами.
Составляющие главы:
- Краткосрочная память в контекстном окне: что держать в prompt, а что выносить наружу.
- Долгосрочная память: эпизодическое хранение фактов, предпочтений и артефактов выполнения.
- Retrieval-политики: релевантность, TTL, суммаризация, дедупликация и защита от «захламления» контекста.
- Риски памяти: утечки чувствительных данных, drift контекста и деградация качества при росте state.
Tool Usage, Learning, and Protocols
Function calling, интеграции с внешними системами и протоколы взаимодействия (включая MCP).
Составляющие главы:
- Дизайн tool contract: схемы аргументов, валидация, типизация и границы ответственности.
- Цикл вызова инструментов: выбор action, обработка ошибок, retry/idempotency и post-processing.
- Подключение внешних систем через протоколы (MCP и смежные подходы) и их архитектурные trade-offs.
- Переход от генерации текста к выполнению действий: требования к безопасности и аудиту.
Planning and Reflection
Декомпозиция задач, пересборка плана, self-critique и feedback loops для повышения качества ответов.
Составляющие главы:
- Декомпозиция сложной цели на подзадачи и формирование исполнимого плана шагов.
- Динамическая пересборка плана при новых данных, ошибках инструментов или изменении приоритетов.
- Reflection и self-critique как механизм повышения качества и снижения грубых ошибок.
- Операционные лимиты: budget/timebox, stop-conditions и контроль стоимости циклов рефлексии.
Multi-Agent Systems
Ролевое разделение, координация нескольких агентов и trade-offs multi-agent архитектур (включая A2A-контекст).
Составляющие главы:
- Ролевые модели: planner, researcher, executor, reviewer и правила handoff между ними.
- Топологии взаимодействия: hub-and-spoke, peer-to-peer, иерархические supervisor-агенты.
- Согласование состояния между агентами: общий контекст, message protocol, контроль конфликтов.
- Ключевые риски: каскад ошибок, сложность трассировки и рост инфраструктурной стоимости.
Где возникают инженерные риски
Память и управление контекстом
Без явной стратегии memory агент быстро теряет релевантность: растет latency, контекст размывается, а стоимость токенов становится непредсказуемой.
Инструменты и безопасные интеграции
Подключение tools переводит систему из режима генерации текста в режим действий. Ошибка на уровне прав, валидации или idempotency становится уже продакшен-риском.
Планирование и цена качества
Reflection-циклы улучшают ответы, но увеличивают число вызовов модели. Нужны ограничения по бюджету, таймаутам и глубине планирования.
Координация нескольких агентов
Multi-agent подход помогает разделять роли, но усложняет наблюдаемость, трассировку ошибок и контроль глобальной консистентности результата.
Кому полезно и как читать
Для кого
- Инженерам и тимлидам, которые проектируют AI features не как демо, а как продуктовые системы.
- Командам, которым нужна рабочая ментальная модель: память, tools, планирование, оркестрация.
- Тем, кто уже прошел базу по LLM и хочет перейти к agent-архитектурам и multi-agent сценариям.
Рекомендуемый порядок
- Сначала пройти главу Hands-On Large Language Models, чтобы зафиксировать фундамент по устройству LLM.
- Затем читать An Illustrated Guide to AI Agents как архитектурное продолжение вокруг модели.
- После этого закрепить продакшен-практики через AI Engineering и Prompt Engineering for LLMs.
Что смотреть отдельно
В блоке tool usage и multi-agent сценариев полезно отдельно разобрать отличия протоколов MCP и A2A, потому что выбор протокола влияет на границы ответственности и наблюдаемость агентной системы.
