跳到主要内容

论文索引

本文件索引 AI Agent 经典论文和早期实践资料。

使用原则:

  • 原始论文用于理解方法、实验设置和证据边界。
  • 作者项目页和代码仓库用于核对实现细节。
  • 开源项目如 AutoGPT、BabyAGI 只能作为工程实践参考,不作为严格论文证据。

1. 可信度与阅读方式

类型可信度适合回答的问题不适合回答的问题
原始论文A方法结构、实验任务、主要贡献、局限当前平台 API 是否支持
作者项目页Ademo、补充材料、代码入口生产最佳实践
官方仓库S/A实现细节、示例、项目状态论文结论的统计证明
社区复现C工程经验、复现实验单独支撑技术路线

阅读论文时建议按四步走:

  1. 先看它解决什么能力缺口。
  2. 再看实验任务、基线和评测指标。
  3. 再看局限和失败场景。
  4. 最后判断它在现代工程中需要补哪些模块。

2. 推理与行动

论文类型主题适用场景知识库文件
ReAct: Synergizing Reasoning and Acting in Language Models原始论文推理与行动交替、工具/环境观察多步工具问答、环境交互、可审计执行循环../14-经典论文与方法/ReAct.md

阅读重点:

  • Thought、Action、Observation 如何组成循环。
  • 实验中的工具和环境边界。
  • 为什么生产中要把 trace、安全和权限补上。

3. 工具调用与外部能力

论文类型主题适用场景知识库文件
Toolformer: Language Models Can Teach Themselves to Use Tools原始论文自监督工具调用数据构造工具调用样本生成、工具收益评估、模型工具使用训练../14-经典论文与方法/Toolformer.md

阅读重点:

  • 少量示例如何扩展为候选工具调用样本。
  • 损失过滤的证据边界。
  • 为什么工具调用准确率需要独立评测。

4. 规划与搜索

论文类型主题适用场景知识库文件
Tree of Thoughts: Deliberate Problem Solving with Large Language Models原始论文搜索式推理、候选分支、评估器高价值复杂规划、可评估中间状态、候选方案比较../14-经典论文与方法/Tree-of-Thoughts.md

阅读重点:

  • Generator、Evaluator、Search Controller 的拆分。
  • BFS、DFS、beam search 的成本和收益。
  • 评估器不可靠时为什么 ToT 会放大错误。

5. 反思、记忆与学习

论文类型主题适用场景知识库文件
Reflexion: Language Agents with Verbal Reinforcement Learning原始论文语言反思、失败反馈、经验记忆可评估任务的失败复盘、多轮重试、经验记忆../14-经典论文与方法/Reflexion.md
Generative Agents: Interactive Simulacra of Human Behavior原始论文记忆流、反思、计划、社会仿真长期记忆、角色仿真、多 Agent 状态传播../14-经典论文与方法/Generative-Agents.md

阅读重点:

  • Reflexion 依赖 evaluator,不是无条件自我提升。
  • Generative Agents 的证据是行为可信度,不是事实正确性。
  • 长期记忆需要隐私、删除和权限治理。

6. 开放式探索与技能积累

论文类型主题适用场景知识库文件
Voyager: An Open-Ended Embodied Agent with Large Language Models原始论文自动课程、技能库、开放探索可观察环境、可执行技能、研发助手技能沉淀../14-经典论文与方法/Voyager.md

阅读重点:

  • 自动课程如何提出下一目标。
  • 技能库如何保存成功代码。
  • 为什么技能入库必须有验证、版本和安全审查。

7. 早期开源实践

资料类型主题适用场景知识库文件
AutoGPT开源实践自主任务循环、工具使用、长期运行工程模式、失败教训、历史参考../14-经典论文与方法/AutoGPT与BabyAGI.md
BabyAGI开源实践任务创建、优先级排序、任务队列极简任务队列式 Agent 教学和原型../14-经典论文与方法/AutoGPT与BabyAGI.md

阅读重点:

  • 它们不是严格论文证据。
  • 重点看目标发散、循环失控、权限过大、成本失控。
  • 现代系统应从可控任务队列和审批机制开始。

8. 参考链接

资料URL可信度备注
ReActhttps://arxiv.org/abs/2210.03629A原始论文
ReAct project pagehttps://react-lm.github.io/A作者项目页
Toolformerhttps://arxiv.org/abs/2302.04761A原始论文
Meta Toolformer pagehttps://ai.meta.com/research/publications/toolformer-language-models-can-teach-themselves-to-use-tools/A官方研究页
Reflexionhttps://arxiv.org/abs/2303.11366A原始论文
Reflexion repositoryhttps://github.com/noahshinn/reflexionA作者仓库
Generative Agentshttps://arxiv.org/abs/2304.03442A原始论文
Generative Agents ACM pagehttps://dl.acm.org/doi/10.1145/3586183.3606763A会议论文页
Tree of Thoughtshttps://arxiv.org/abs/2305.10601A原始论文
Tree of Thoughts repositoryhttps://github.com/princeton-nlp/tree-of-thought-llmA作者仓库
Voyagerhttps://arxiv.org/abs/2305.16291A原始论文
Voyager project pagehttps://voyager.minedojo.org/A作者项目页
AutoGPThttps://github.com/Significant-Gravitas/AutoGPTS/A官方仓库,工程实践
BabyAGIhttps://github.com/yoheinakajima/babyagiS/A官方仓库,工程实践

9. 使用提醒

  • 论文结论要保留任务、模型、工具、环境和评测设置。
  • 不要用论文证明某个当前商业平台具备某功能。
  • 不要用开源 demo 证明生产可靠性。
  • 需要工程落地时,必须结合官方文档、安全资料和本地评测。

10. 权威资料