模型与推理能力

本目录说明大语言模型（Large Language Model, LLM）在 Agent 系统中的工程角色、选择方法、推理能力、上下文管理、多模型路由和失败处理。核对日期：2026-05-09。

1. 阅读路径

文件	解决的问题
LLM在Agent中的角色	模型在 Agent loop 中到底负责什么，不负责什么
模型选择策略	如何按任务、工具、风险、成本选择模型
推理模型与普通模型的差异	什么时候需要 reasoning model，什么时候会浪费
上下文窗口管理	如何预算、压缩、检索和保留关键上下文
多模型路由	如何让多个模型协作而不是堆复杂度
成本-延迟-质量权衡	如何把质量目标转成预算和 SLA
模型退化与失败处理	如何处理输出退化、工具误调、超时和供应商故障

类型	本目录采用的判断方式	示例
官方能力	模型或平台官方文档明确支持，且有 API、SDK 或参数说明	OpenAI Responses API 的工具调用、Anthropic Claude 的 tool use、Google Gemini function calling
社区能力	由开源框架、插件、示例或第三方集成提供	LangChain provider wrapper、CrewAI 社区工具、LlamaIndex 第三方 reader
实验能力	官方标注 beta、experimental、preview，或 API/模型行为仍频繁变化	Anthropic computer use beta、部分 MCP connector beta 能力、框架内实验性 agent 模块
营销说法	没有可验证接口、评测方法或边界条件的能力描述	“自动完成所有复杂工作”“企业级通用自主 Agent”

模型不是完整 Agent。模型通常承担语义理解、计划生成、工具选择、参数生成、结果总结和自检；Agent 系统还需要状态管理、工具执行、权限控制、观测、评测和回滚。

模型能力设计必须默认覆盖 prompt injection、data exfiltration、tool poisoning、越权工具调用、敏感数据进入上下文、供应商故障和模型退化。高风险任务不能只靠“更强模型”解决，应在模型外部实现最小权限、审批、审计、脱敏、Trace 和回归评测。