参考答案

核对日期：2026-05-13。

专题学习入口：

1. 阶段练习参考方向

1.1 构建 20 条评测样例

合格 eval 样例应包含输入、期望行为、评分标准、标签和风险等级。比例可参考：

正常样例：覆盖主路径和常见意图。
边界样例：超长、歧义、多语言、格式异常。
缺信息样例：要求澄清或拒答。
安全负例：注入、越权、敏感数据、危险指令。

不要只写“答案正确”，要写什么算正确、哪些错误不可接受。

1.2 企业知识库问答 Rubric

示例 0-2 分维度：

维度	2 分	1 分	0 分
正确性	结论正确	部分正确	结论错误
Groundedness	每个结论有证据	部分证据不足	无证据或编造
引用	引用准确支持结论	引用主题相关	引用不存在或不支持
完整性	覆盖关键点	缺少次要信息	缺少关键条件
拒答	证据不足时拒答	拒答不清晰	编造答案

必须人工复核：高风险政策、证据冲突、用户投诉、低分样例、安全负例失败。

1.3 RAG 分层诊断

记录表建议：

question_id
gold_doc_exists
retrieved
in_context
answer_correct
citation_supports
failure_layer

失败层归因示例：数据缺失、检索未召回、rerank 排序错、上下文裁剪、模型生成错误、引用不支持。

1.4 Agent 轨迹评测

每一步至少检查：

工具选择是否符合目标。
参数是否正确和最小化。
是否遵守权限。
状态是否正确更新。
是否应该停止、重试或升级。
成本和步数是否超预算。

1.5 Judge 校准

比较人工和 LLM judge：

一致率低说明 Rubric 不清或 judge 不适合。
分歧样例要归类：偏好长答案、忽略引用、过度宽容、对安全负例不敏感。
校准后可让 judge 做初筛，关键样例仍需人工抽检。

2. 项目评分样例

高分评测项目应具备：

30 条以上样例，覆盖正常、边界、安全、拒答和历史失败。
每条样例有标签、风险等级和期望行为。
Rubric 可复现，不依赖“感觉不错”。
同时有自动评分和人工抽样评分。
失败分析能定位到 Prompt、数据、检索、工具或模型。
发布门禁有阈值、回滚条件和例外流程。

不合格表现：

只挑成功 demo。
只看最终答案，不看 RAG 证据和 Agent 轨迹。
judge 没有人工校准。
评测集不版本化。

3. 验收题参考答案

为什么 AI 系统不能只靠主观 demo 评估？

demo 容易选择好样例，无法覆盖长尾、边界、安全和历史失败。评测集能让质量可复现、可比较、可回归。

一个评测集应该包含哪些类型的样例？

正常样例、边界样例、缺信息样例、拒答样例、安全负例、历史失败样例、高风险业务样例和多样化用户表达。

Rubric 的作用是什么？

Rubric 把“好答案”拆成可评分标准，减少主观漂移，让人工和自动评分有共同依据。

规则评分、人工评分和 LLM-as-judge 分别适合什么场景？

规则评分适合格式、精确字段和可计算指标；人工评分适合高风险和主观质量；LLM-as-judge 适合规模化初筛和开放文本评分，但需校准。

RAG 为什么要分检索、排序、生成和引用评测？

最终答案错可能来自不同环节。分层评测能定位是证据不存在、没召回、排序错、生成错还是引用不支持。

groundedness 和 correctness 有什么区别？

Correctness 是答案是否事实正确；groundedness 是答案是否被给定证据支持。答案可能事实正确但没有被当前证据支持。

Agent 为什么要评估中间轨迹？

Agent 的风险在工具选择、参数、权限、状态和停止条件。只看最终答案会漏掉越权、无效调用和侥幸成功。

LLM-as-judge 的主要风险是什么？

偏好流畅长答案、被表面格式影响、忽略证据、与被测模型同源偏差、对安全问题不敏感、评分不可复现。

如何把线上失败转成回归样例？

收集 trace、输入、输出、期望行为、失败原因和修复策略，脱敏后加入 eval 集，并给出标签和风险等级。

发布门禁应该包含哪些检查？

核心质量阈值、安全负例通过率、RAG 引用和拒答、Agent 轨迹、成本延迟、错误率、回滚方案和人工审批结果。

1. 阶段练习参考方向​

1.1 构建 20 条评测样例​

1.2 企业知识库问答 Rubric​

1.3 RAG 分层诊断​

1.4 Agent 轨迹评测​

1.5 Judge 校准​

2. 项目评分样例​

3. 验收题参考答案​