跳到主要内容

模型与推理能力

本目录说明大语言模型(Large Language Model, LLM)在 Agent 系统中的工程角色、选择方法、推理能力、上下文管理、多模型路由和失败处理。核对日期:2026-05-09。

1. 阅读路径

文件解决的问题
LLM在Agent中的角色模型在 Agent loop 中到底负责什么,不负责什么
模型选择策略如何按任务、工具、风险、成本选择模型
推理模型与普通模型的差异什么时候需要 reasoning model,什么时候会浪费
上下文窗口管理如何预算、压缩、检索和保留关键上下文
多模型路由如何让多个模型协作而不是堆复杂度
成本-延迟-质量权衡如何把质量目标转成预算和 SLA
模型退化与失败处理如何处理输出退化、工具误调、超时和供应商故障

2. 能力口径

类型本目录采用的判断方式示例
官方能力模型或平台官方文档明确支持,且有 API、SDK 或参数说明OpenAI Responses API 的工具调用、Anthropic Claude 的 tool use、Google Gemini function calling
社区能力由开源框架、插件、示例或第三方集成提供LangChain provider wrapper、CrewAI 社区工具、LlamaIndex 第三方 reader
实验能力官方标注 beta、experimental、preview,或 API/模型行为仍频繁变化Anthropic computer use beta、部分 MCP connector beta 能力、框架内实验性 agent 模块
营销说法没有可验证接口、评测方法或边界条件的能力描述“自动完成所有复杂工作”“企业级通用自主 Agent”

3. 模型在 Agent 中的基本定位

模型不是完整 Agent。模型通常承担语义理解、计划生成、工具选择、参数生成、结果总结和自检;Agent 系统还需要状态管理、工具执行、权限控制、观测、评测和回滚。

4. 选型总原则

  1. 先定义任务成功率、延迟、成本、合规和可观测性目标,再选模型。
  2. 工具调用任务优先验证结构化输出稳定性和 tool call accuracy,而不是只看聊天质量。
  3. 高风险任务需要人类在环、最小权限工具和完整 Trace,不应只靠“更强模型”解决。
  4. 长上下文不是无限记忆。长窗口降低截断风险,但仍需要预算、摘要、检索和引用校验。
  5. 多模型路由必须能回放、能评测、能降级,否则会制造不可解释的生产问题。

5. 目录内统一评测指标

指标含义
Task Success Rate任务是否完成,需按业务验收规则判定
Tool Call Accuracy是否在正确时机调用正确工具并传入正确参数
Groundedness输出是否被上下文、工具结果或检索证据支持
Latency p95/p99用户等待和队列积压风险
Cost per Successful Task单次成功任务的实际模型与工具总成本
Intervention Rate需要人工审批、修正或重试的比例

6. 安全与治理基线

模型能力设计必须默认覆盖 prompt injection、data exfiltration、tool poisoning、越权工具调用、敏感数据进入上下文、供应商故障和模型退化。高风险任务不能只靠“更强模型”解决,应在模型外部实现最小权限、审批、审计、脱敏、Trace 和回归评测。

7. 权威资料