Agent评测体系
本目录回答一个生产团队最常见的问题:Agent 到底有没有变好。单看一次演示、一次 benchmark 分数或一次人工主观判断都不够,工程评测需要把任务成功、工具调用、轨迹质量、成本延迟、安全风险和线上反馈放到同一张账本里。
目录
| 文件 | 解决的问题 |
|---|---|
| Agent评测总览.md | 建立从离线到在线、从结果到轨迹的完整评测框架 |
| 离线评测.md | 上线前如何用数据集、评审器和回归集判断改动 |
| 在线评测.md | 上线后如何用 A/B、影子流量和用户反馈判断真实效果 |
| Tool-Call准确率.md | 如何评估是否在正确时机调用正确工具并传正确参数 |
| Task-Success-Rate.md | 如何定义任务成功,避免只看最终文本满意度 |
| 轨迹评测.md | 如何评估 Agent 执行过程,而不只看最后答案 |
| 成本与延迟评测.md | 如何把 token、工具耗时、重试和并发纳入评测 |
| 安全评测.md | 如何覆盖提示注入、数据外泄、工具越权等风险 |
| 回归测试.md | 如何把历史失败转成长期守门测试 |
| Benchmark局限.md | 如何正确使用 SWE-bench、GAIA、ToolBench、tau-bench 等 benchmark |
总体方法
最小指标集
| 维度 | 推荐指标 | 解释 |
|---|---|---|
| 任务结果 | Task Success Rate、人工通过率、关键字段正确率 | 判断用户目标是否真实完成 |
| 工具调用 | Tool Call Accuracy、参数有效率、越权调用率 | 判断行动是否正确 |
| 轨迹过程 | 无效步骤数、重试率、循环率、人工接管率 | 判断执行路径是否稳定 |
| 成本延迟 | 端到端延迟、模型 token、工具耗时、单位成功成本 | 判断是否可规模化 |
| 安全治理 | 注入成功率、敏感数据泄漏率、危险动作确认率 | 判断是否可上线 |
| 线上体验 | CSAT、解决率、二次联系率、投诉率 | 判断业务真实收益 |
使用原则
- 离线评测负责快速筛选,在线评测负责验证真实分布。
- 结果指标和轨迹指标必须一起看;结果正确但过程越权,不能判为合格。
- benchmark 只能回答“在这个公开任务集上表现如何”,不能替代生产验收。
- 任何评测结论都要记录被测版本:模型、提示词、工具 schema、检索索引、策略版本、数据集版本。
权威资料
- OpenAI Evals guide: https://platform.openai.com/docs/guides/evals (核对日期:2026-05-09)
- OpenAI Agents SDK tracing: https://openai.github.io/openai-agents-python/tracing/ (核对日期:2026-05-09)
- LangSmith Evaluation docs: https://docs.langchain.com/langsmith/evaluation (核对日期:2026-05-09)
- LangSmith Observability docs: https://docs.langchain.com/langsmith/observability (核对日期:2026-05-09)
- OWASP Top 10 for LLM Applications: https://owasp.org/www-project-top-10-for-large-language-model-applications/ (核对日期:2026-05-09)
- NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework (核对日期:2026-05-09)