Agent基础理论
本目录解释 AI Agent 的基础机制:Agent 如何被定义,执行循环如何运行,ReAct、Reflection、人类在环如何嵌入工程系统,以及常见失败模式如何被评测和控制。
阅读顺序
| 顺序 | 文件 | 重点 |
|---|---|---|
| 1 | Agent的定义与边界.md | 从工程控制权定义 Agent |
| 2 | Agent-Loop执行循环.md | Agent 的运行时循环、状态和终止条件 |
| 3 | 感知-思考-行动-反馈模型.md | 从控制系统角度理解 Agent |
| 4 | ReAct范式.md | 推理与行动交织的经典范式 |
| 5 | Reflection与Self-Critique.md | 自评、反思、迭代修正的使用边界 |
| 6 | Human-in-the-loop.md | 人类审批、纠错、反馈与接管 |
| 7 | Agent失败模式总览.md | 失败分类、检测信号和防线 |
核心概念关系
基础理论的工程化原则
-
Agent 是执行系统,不是人格。 工程设计要关注状态、工具、权限、反馈和终止条件,而不是拟人化描述。
-
“思考”必须落到可观察行为。 无论内部是否暴露 reasoning,系统都应记录决策摘要、工具调用、参数、观察结果和审批记录。
-
循环必须可中断、可恢复、可审计。 没有最大步数、超时、trace 和状态持久化的 Agent 不应进入生产。
-
反思不是万能纠错器。 Reflection 可以提高某些任务的迭代质量,但会增加成本和延迟,也可能强化错误假设。高风险场景必须结合外部验证和人类在环。
-
安全策略不能只写在 prompt 中。 权限、审批、脱敏、工具 allowlist、schema 校验和审计应在系统层实现。
本目录共同评测口径
| 指标 | 说明 |
|---|---|
| Task Success Rate | 任务最终是否完成 |
| Tool Call Accuracy | 是否在合适时机调用合适工具并传入正确参数 |
| Step Efficiency | 是否在合理步数内完成 |
| Recovery Rate | 工具失败或信息不足时是否能恢复 |
| Policy Violation Rate | 是否违反权限、安全或业务规则 |
| Human Escalation Quality | 何时升级、升级信息是否完整 |
| Trace Completeness | 是否记录模型、工具、审批、异常 span |
权威资料
- OpenAI Agents SDK docs: https://openai.github.io/openai-agents-python/ (核对日期:2026-05-09)
- Anthropic, Building effective agents: https://www.anthropic.com/engineering/building-effective-agents (核对日期:2026-05-09)
- ReAct paper: https://arxiv.org/abs/2210.03629 (核对日期:2026-05-09)
- Reflexion paper: https://arxiv.org/abs/2303.11366 (核对日期:2026-05-09)
- Self-Refine paper: https://arxiv.org/abs/2303.17651 (核对日期:2026-05-09)
- LangGraph docs: https://docs.langchain.com/oss/python/langgraph/overview (核对日期:2026-05-09)
- OWASP Top 10 for LLM Applications: https://owasp.org/www-project-top-10-for-large-language-model-applications/ (核对日期:2026-05-09)