参考答案

核对日期：2026-05-13。

1. 阶段练习参考方向

1.1 Chunk 策略比较

参考结论：

策略	优点	风险
固定 500 字	简单、实现快	切断标题、表格和上下文
按标题层级	语义完整、引用清晰	大章节可能过长
段落 + overlap	保留局部上下文	重复多、成本高

比较召回时要记录每个问题的正确证据是否进入 top k，以及失败是切分、检索、排序还是问题改写造成的。

1.2 检索对比练习

常见结论：

关键词检索适合专有名词、编号、精确术语。
向量检索适合语义相近但措辞不同的问题。
混合检索通常更稳，但需要权重和 rerank。

输出不要只看最终回答，要检查 top 5 结果是否真的包含可回答证据。

1.3 Rerank 练习

Rerank 的目标是从召回候选中把更能回答问题的 chunk 排到前面。高质量记录应包含：

rerank 前 top 5 分数。
rerank 后 top 5 分数。
被提升和被降级的 chunk 原因。
是否牺牲延迟和成本。

1.4 引用验证练习

逐条检查：

引用 ID 是否存在。
引用内容是否直接支持结论。
回答中是否有无引用结论。
引用是否被过度解释。
多个引用是否互相冲突。

如果引用只是主题相关但不能支撑结论，应判为失败。

1.5 RAG 拒答练习

参考拒答规则：

无检索结果：拒答并说明知识库未覆盖。
低相关结果：拒答或要求用户澄清问题。
证据冲突：列出冲突并转人工或要求确认版本。
用户无权限：不透露是否存在敏感文档，只说明权限不足。
预测或编造：拒绝给确定事实，改为说明需要额外数据或人工判断。

2. 项目评分样例

高分 RAG 项目应具备：

文档导入、清洗、chunk 和元数据规范清楚。
检索链路有关键词、向量、混合或 rerank 对比。
输出答案带引用，且引用支持结论。
有权限过滤、版本和日志策略。
至少 20 条 eval，覆盖正常、边界、无答案和权限样例。
失败样例能定位到检索、排序、生成或数据问题。

不合格表现：

把文档全塞进 Prompt。
只有向量库 demo，没有引用验证。
没有拒答，任何问题都编答案。
没有权限和版本字段。

3. 验收题参考答案

RAG 适合解决哪些问题，不适合解决哪些问题？

适合知识密集、需要最新或私有资料、要求引用的问答。不适合无标准答案的创意任务、需要训练模型技能的任务、权限不可控或数据质量很差的场景。

离线索引和在线查询分别包含哪些步骤？

离线索引：文档采集、清洗、切分、元数据、embedding、入库、版本管理。在线查询：问题改写、检索、权限过滤、rerank、上下文构造、生成、引用校验、日志和评测。

Chunk 大小如何影响召回和上下文质量？

过小会丢上下文，过大会引入噪声并占 token。合适大小取决于文档结构、问题粒度、模型上下文和引用需求。

为什么 metadata 是 RAG 系统的关键组成？

metadata 支撑来源追踪、权限过滤、版本处理、更新时间、文档类型、租户隔离和引用展示。没有 metadata，RAG 很难治理。

向量检索和关键词检索各自适合什么场景？

向量检索适合语义相似和自然语言问题；关键词检索适合精确术语、编号、人名、产品名和法规条款。生产常用混合检索。

Rerank 解决什么问题，代价是什么？

Rerank 改善候选排序，把更相关证据排前面。代价是额外模型调用、延迟、成本和系统复杂度。

为什么引用必须验证是否支持结论？

模型可能生成“带引用的幻觉”，引用主题相关但不支持具体结论。验证引用能防止来源装饰化，提高可追溯性。

RAG 权限过滤应该在哪些环节做？

应在检索前限制可检索范围、检索后过滤候选、生成前检查上下文、展示时控制原文访问，日志也要避免泄漏无权限内容。

RAG 评测为什么要分检索、排序、生成和 groundedness？

只看最终答案无法定位失败。分层评测能判断是没召回、排序错、生成错、引用不支持，还是拒答策略有问题。

RAG 和微调分别适合什么问题？

RAG 适合接入外部知识、私有资料和频繁更新内容；微调适合改变模型风格、格式、领域模式或任务行为。微调不能替代权限和知识更新。

1. 阶段练习参考方向​

1.1 Chunk 策略比较​

1.2 检索对比练习​

1.3 Rerank 练习​

1.4 引用验证练习​

1.5 RAG 拒答练习​

2. 项目评分样例​

3. 验收题参考答案​