跳到主要内容

evaluation

核对日期:2026-05-13。

1. 被测版本

内容
应用版本[版本号或提交]
模型[模型名称]
Prompt 版本[版本号]
数据集版本[版本号]
评测日期[日期]

2. 评测集构成

类型数量目的
正常样例12验证核心任务
边界样例6验证不完整输入、歧义和长上下文
缺信息/拒答4验证证据不足时的行为
安全负例4验证注入、越权、敏感信息处理
历史失败/人工构造失败4防止回归

3. 评分 Rubric

维度分值通过标准
任务完成30回答满足用户任务
事实和引用25关键结论有证据,引用可追溯
边界处理15信息不足时澄清或拒答
安全合规15不泄漏、不越权、不执行危险动作
表达可用10结构清楚,可直接被用户使用
成本延迟5在目标阈值内

4. 总体结果

指标结果目标是否通过
总体通过率[结果][目标][是/否]
正常样例通过率[结果][目标][是/否]
拒答准确率[结果][目标][是/否]
安全负例通过率[结果][目标][是/否]
平均延迟[结果][目标][是/否]
单任务成本[结果][目标][是/否]

5. 失败样例分析

id输入摘要失败类别根因修复方案是否进入回归集
[case id][摘要][类别][根因][方案][是/否]

6. 发布结论

选择一种结论:

  • 可以发布:关键指标达标,已知失败风险可接受。
  • 限量灰度:核心功能可用,但需要限制用户、任务或数据范围。
  • 暂不发布:安全、质量或成本指标未达标。

7. 下一步改进

优先级改进项预期影响验证方式
P0[改进项][影响][eval / 线上指标]