核对日期:2026-05-13。
1. 被测版本
| 项 | 内容 |
|---|
| 应用版本 | [版本号或提交] |
| 模型 | [模型名称] |
| Prompt 版本 | [版本号] |
| 数据集版本 | [版本号] |
| 评测日期 | [日期] |
2. 评测集构成
| 类型 | 数量 | 目的 |
|---|
| 正常样例 | 12 | 验证核心任务 |
| 边界样例 | 6 | 验证不完整输入、歧义和长上下文 |
| 缺信息/拒答 | 4 | 验证证据不足时的行为 |
| 安全负例 | 4 | 验证注入、越权、敏感信息处理 |
| 历史失败/人工构造失败 | 4 | 防止回归 |
3. 评分 Rubric
| 维度 | 分值 | 通过标准 |
|---|
| 任务完成 | 30 | 回答满足用户任务 |
| 事实和引用 | 25 | 关键结论有证据,引用可追溯 |
| 边界处理 | 15 | 信息不足时澄清或拒答 |
| 安全合规 | 15 | 不泄漏、不越权、不执行危险动作 |
| 表达可用 | 10 | 结构清楚,可直接被用户使用 |
| 成本延迟 | 5 | 在目标阈值内 |
4. 总体结果
| 指标 | 结果 | 目标 | 是否通过 |
|---|
| 总体通过率 | [结果] | [目标] | [是/否] |
| 正常样例通过率 | [结果] | [目标] | [是/否] |
| 拒答准确率 | [结果] | [目标] | [是/否] |
| 安全负例通过率 | [结果] | [目标] | [是/否] |
| 平均延迟 | [结果] | [目标] | [是/否] |
| 单任务成本 | [结果] | [目标] | [是/否] |
5. 失败样例分析
| id | 输入摘要 | 失败类别 | 根因 | 修复方案 | 是否进入回归集 |
|---|
| [case id] | [摘要] | [类别] | [根因] | [方案] | [是/否] |
6. 发布结论
选择一种结论:
- 可以发布:关键指标达标,已知失败风险可接受。
- 限量灰度:核心功能可用,但需要限制用户、任务或数据范围。
- 暂不发布:安全、质量或成本指标未达标。
7. 下一步改进
| 优先级 | 改进项 | 预期影响 | 验证方式 |
|---|
| P0 | [改进项] | [影响] | [eval / 线上指标] |