参考答案
核对日期:2026-05-13。
1. 阶段练习参考方向
1.1 Chunk 策略比较
参考结论:
| 策略 | 优点 | 风险 |
|---|---|---|
| 固定 500 字 | 简单、实现快 | 切断标题、表格和上下文 |
| 按标题层级 | 语义完整、引用清晰 | 大章节可能过长 |
| 段落 + overlap | 保留局部上下文 | 重复多、成本高 |
比较召回时要记录每个问题的正确证据是否进入 top k,以及失败是切分、检索、排序还是问题改写造成的。
1.2 检索对比练习
常见结论:
- 关键词检索适合专有名词、编号、精确术语。
- 向量检索适合语义相近但措辞不同的问题。
- 混合检索通常更稳,但需要权重和 rerank。
输出不要只看最终回答,要检查 top 5 结果是否真的包含可回答证据。
1.3 Rerank 练习
Rerank 的目标是从召回候选中把更能回答问题的 chunk 排到前面。高质量记录应包含:
- rerank 前 top 5 分数。
- rerank 后 top 5 分数。
- 被提升和被降级的 chunk 原因。
- 是否牺牲延迟和成本。
1.4 引用验证练习
逐条检查:
- 引用 ID 是否存在。
- 引用内容是否直接支持结论。
- 回答中是否有无引用结论。
- 引用是否被过度解释。
- 多个引用是否互相冲突。
如果引用只是主题相关但不能支撑结论,应判为失败。
1.5 RAG 拒答练习
参考拒答规则:
- 无检索结果:拒答并说明知识库未覆盖。
- 低相关结果:拒答或要求用户澄清问题。
- 证据冲突:列出冲突并转人工或要求确认版本。
- 用户无权限:不透露是否存在敏感文档,只说明权限不足。
- 预测或编造:拒绝给确定事实,改为说明需要额外数据或人工判断。
2. 项目评分样例
高分 RAG 项目应具备:
- 文档导入、清洗、chunk 和元数据规范清楚。
- 检索链路有关键词、向量、混合或 rerank 对比。
- 输出答案带引用,且引用支持结论。
- 有权限过滤、版本和日志策略。
- 至少 20 条 eval,覆盖正常、边界、无答案和权限样例。
- 失败样例能定位到检索、排序、生成或数据问题。
不合格表现:
- 把文档全塞进 Prompt。
- 只有向量库 demo,没有引用验证。
- 没有拒答,任何问题都编答案。
- 没有权限和版本字段。
3. 验收题参考答案
- RAG 适合解决哪些问题,不适合解决哪些问题?
适合知识密集、需要最新或私有资料、要求引用的问答。不适合无标准答案的创意任务、需要训练模型技能的任务、权限不可控或数据质量很差的场景。
- 离线索引和在线查询分别包含哪些步骤?
离线索引:文档采集、清洗、切分、元数据、embedding、入库、版本管理。在线查询:问题改写、检索、权限过滤、rerank、上下文构造、生成、引用校验、日志和评测。
- Chunk 大小如何影响召回和上下文质量?
过小会丢上下文,过大会引入噪声并占 token。合适大小取决于文档结构、问题粒度、模型上下文和引用需求。
- 为什么 metadata 是 RAG 系统的关键组成?
metadata 支撑来源追踪、权限过滤、版本处理、更新时间、文档类型、租户隔离和引用展示。没有 metadata,RAG 很难治理。
- 向量检索和关键词检索各自适合什么场景?
向量检索适合语义相似和自然语言问题;关键词检索适合精确术语、编号、人名、产品名和法规条款。生产常用混合检索。
- Rerank 解决什么问题,代价是什么?
Rerank 改善候选排序,把更相关证据排前面。代价是额外模型调用、延迟、成本和系统复杂度。
- 为什么引用必须验证是否支持结论?
模型可能生成“带引用的幻觉”,引用主题相关但不支持具体结论。验证引用能防止来源装饰化,提高可追溯性。
- RAG 权限过滤应该在哪些环节做?
应在检索前限制可检索范围、检索后过滤候选、生成前检查上下文、展示时控制原文访问,日志也要避免泄漏无权限内容。
- RAG 评测为什么要分检索、排序、生成和 groundedness?
只看最终答案无法定位失败。分层评测能判断是没召回、排序错、生成错、引用不支持,还是拒答策略有问题。
- RAG 和微调分别适合什么问题?
RAG 适合接入外部知识、私有资料和频繁更新内容;微调适合改变模型风格、格式、领域模式或任务行为。微调不能替代权限和知识更新。