跳到主要内容

参考答案

核对日期:2026-05-13。

专题学习入口:

1. 阶段练习参考方向

1.1 构建 20 条评测样例

合格 eval 样例应包含输入、期望行为、评分标准、标签和风险等级。比例可参考:

  • 正常样例:覆盖主路径和常见意图。
  • 边界样例:超长、歧义、多语言、格式异常。
  • 缺信息样例:要求澄清或拒答。
  • 安全负例:注入、越权、敏感数据、危险指令。

不要只写“答案正确”,要写什么算正确、哪些错误不可接受。

1.2 企业知识库问答 Rubric

示例 0-2 分维度:

维度2 分1 分0 分
正确性结论正确部分正确结论错误
Groundedness每个结论有证据部分证据不足无证据或编造
引用引用准确支持结论引用主题相关引用不存在或不支持
完整性覆盖关键点缺少次要信息缺少关键条件
拒答证据不足时拒答拒答不清晰编造答案

必须人工复核:高风险政策、证据冲突、用户投诉、低分样例、安全负例失败。

1.3 RAG 分层诊断

记录表建议:

question_id
gold_doc_exists
retrieved
in_context
answer_correct
citation_supports
failure_layer

失败层归因示例:数据缺失、检索未召回、rerank 排序错、上下文裁剪、模型生成错误、引用不支持。

1.4 Agent 轨迹评测

每一步至少检查:

  • 工具选择是否符合目标。
  • 参数是否正确和最小化。
  • 是否遵守权限。
  • 状态是否正确更新。
  • 是否应该停止、重试或升级。
  • 成本和步数是否超预算。

1.5 Judge 校准

比较人工和 LLM judge:

  • 一致率低说明 Rubric 不清或 judge 不适合。
  • 分歧样例要归类:偏好长答案、忽略引用、过度宽容、对安全负例不敏感。
  • 校准后可让 judge 做初筛,关键样例仍需人工抽检。

2. 项目评分样例

高分评测项目应具备:

  • 30 条以上样例,覆盖正常、边界、安全、拒答和历史失败。
  • 每条样例有标签、风险等级和期望行为。
  • Rubric 可复现,不依赖“感觉不错”。
  • 同时有自动评分和人工抽样评分。
  • 失败分析能定位到 Prompt、数据、检索、工具或模型。
  • 发布门禁有阈值、回滚条件和例外流程。

不合格表现:

  • 只挑成功 demo。
  • 只看最终答案,不看 RAG 证据和 Agent 轨迹。
  • judge 没有人工校准。
  • 评测集不版本化。

3. 验收题参考答案

  1. 为什么 AI 系统不能只靠主观 demo 评估?

demo 容易选择好样例,无法覆盖长尾、边界、安全和历史失败。评测集能让质量可复现、可比较、可回归。

  1. 一个评测集应该包含哪些类型的样例?

正常样例、边界样例、缺信息样例、拒答样例、安全负例、历史失败样例、高风险业务样例和多样化用户表达。

  1. Rubric 的作用是什么?

Rubric 把“好答案”拆成可评分标准,减少主观漂移,让人工和自动评分有共同依据。

  1. 规则评分、人工评分和 LLM-as-judge 分别适合什么场景?

规则评分适合格式、精确字段和可计算指标;人工评分适合高风险和主观质量;LLM-as-judge 适合规模化初筛和开放文本评分,但需校准。

  1. RAG 为什么要分检索、排序、生成和引用评测?

最终答案错可能来自不同环节。分层评测能定位是证据不存在、没召回、排序错、生成错还是引用不支持。

  1. groundedness 和 correctness 有什么区别?

Correctness 是答案是否事实正确;groundedness 是答案是否被给定证据支持。答案可能事实正确但没有被当前证据支持。

  1. Agent 为什么要评估中间轨迹?

Agent 的风险在工具选择、参数、权限、状态和停止条件。只看最终答案会漏掉越权、无效调用和侥幸成功。

  1. LLM-as-judge 的主要风险是什么?

偏好流畅长答案、被表面格式影响、忽略证据、与被测模型同源偏差、对安全问题不敏感、评分不可复现。

  1. 如何把线上失败转成回归样例?

收集 trace、输入、输出、期望行为、失败原因和修复策略,脱敏后加入 eval 集,并给出标签和风险等级。

  1. 发布门禁应该包含哪些检查?

核心质量阈值、安全负例通过率、RAG 引用和拒答、Agent 轨迹、成本延迟、错误率、回滚方案和人工审批结果。