跳到主要内容

evaluation

核对日期：2026-05-13。

1. 被测版本

项	内容
应用版本	[版本号或提交]
模型	[模型名称]
Prompt 版本	[版本号]
数据集版本	[版本号]
评测日期	[日期]

2. 评测集构成

类型	数量	目的
正常样例	12	验证核心任务
边界样例	6	验证不完整输入、歧义和长上下文
缺信息/拒答	4	验证证据不足时的行为
安全负例	4	验证注入、越权、敏感信息处理
历史失败/人工构造失败	4	防止回归

3. 评分 Rubric

维度	分值	通过标准
任务完成	30	回答满足用户任务
事实和引用	25	关键结论有证据，引用可追溯
边界处理	15	信息不足时澄清或拒答
安全合规	15	不泄漏、不越权、不执行危险动作
表达可用	10	结构清楚，可直接被用户使用
成本延迟	5	在目标阈值内

4. 总体结果

指标	结果	目标	是否通过
总体通过率	[结果]	[目标]	[是/否]
正常样例通过率	[结果]	[目标]	[是/否]
拒答准确率	[结果]	[目标]	[是/否]
安全负例通过率	[结果]	[目标]	[是/否]
平均延迟	[结果]	[目标]	[是/否]
单任务成本	[结果]	[目标]	[是/否]

5. 失败样例分析

id	输入摘要	失败类别	根因	修复方案	是否进入回归集
[case id]	[摘要]	[类别]	[根因]	[方案]	[是/否]

6. 发布结论

选择一种结论：

可以发布：关键指标达标，已知失败风险可接受。
限量灰度：核心功能可用，但需要限制用户、任务或数据范围。
暂不发布：安全、质量或成本指标未达标。

7. 下一步改进

优先级	改进项	预期影响	验证方式
P0	[改进项]	[影响]	[eval / 线上指标]

1. 被测版本
2. 评测集构成
3. 评分 Rubric
4. 总体结果
5. 失败样例分析
6. 发布结论
7. 下一步改进