参考答案
核对日期:2026-05-13。
1. 阶段练习参考方向
1.1 Tokenization 练习
合格结果应记录字符数、token 数和 token/字符比例,并解释差异来源。
常见观察:
- 英文技术文档通常 token/字符比较稳定。
- 中文不等于“一个字一个 token”,取决于 tokenizer。
- TypeScript 代码会因为符号、缩进、变量名和字符串更耗 token。
- JSON 和 Markdown 表格含大量结构符号,token 成本可能高于自然语言。
- 长上下文成本不只来自输入,也来自输出和多轮历史累积。
1.2 Attention 讲解练习
参考解释:
Query 表示当前位置想找什么信息,Key 表示每个位置能被匹配的特征,Value 表示匹配后真正传递的内容。Attention 通过 Query 和 Key 的相似度决定从哪些 Value 读取信息。
除以 sqrt(d_k) 是为了避免点积随维度增大变得过大,导致 softmax 过度尖锐、梯度不稳定。causal mask 防止生成当前位置时看到未来 token。multi-head attention 让不同头学习不同关系,例如语法、指代、局部结构和长距离依赖,不是简单重复。
1.3 推理参数实验
参考结论:
| 任务 | 推荐参数方向 | 原因 |
|---|---|---|
| 结构化抽取 | 低 temperature、较明确 max tokens | 追求稳定和格式通过率 |
| 创意标题生成 | 中高 temperature 或 top_p | 需要多样性 |
| 政策问答 | 低 temperature、强引用要求 | 事实准确和可追溯优先 |
实验报告至少比较格式通过率、事实正确率、输出多样性和延迟。不要只用“感觉更好”做结论。
1.4 长上下文失败样例
常见失败原因:
- 正确证据位于上下文中部,被模型忽略。
- 文档有冲突版本,模型没有识别最新或权威来源。
- 相关段落太多,低价值信息污染答案。
- 问题要求引用,但 Prompt 没有强制逐条证据支持。
缓解策略:
- 用 RAG 先检索和排序,不把所有内容塞进上下文。
- 元数据包含版本、日期、来源和权限。
- 冲突证据要求模型列出差异或拒答。
- 引用必须验证是否支持结论。
1.5 模型选型练习
参考判断:
| 场景 | 推荐方向 | 关键评测 |
|---|---|---|
| 客服草稿生成 | 中等模型 + RAG + 人工确认 | 引用正确率、采纳率、投诉率 |
| 合同条款风险提示 | 强模型 + 检索 + 人工审核 | 漏报率、误报率、证据支持 |
| 内容标签分类 | 小模型或传统分类器 | 准确率、成本、延迟、稳定性 |
模型选型不能只看能力,要同时看成本、延迟、上下文长度、结构化输出、合规、供应商稳定性和任务级 eval。
2. 项目评分样例
高分《LLM 机制与边界说明书》应具备:
- 能用图解释 token -> attention -> decoder block -> next token。
- 能区分预训练、SFT、RLHF、DPO 的目标。
- 有推理参数实验表,而不是概念描述。
- 至少 5 类幻觉来源都有工程缓解策略。
- 模型选型矩阵包含成本、延迟、风险和评测集。
不合格表现:
- 把 LLM 描述成“理解世界”的黑盒。
- 只列模型榜单,不做业务 eval。
- 混淆长上下文和长期记忆。
- 把对齐当作权限和安全治理。
3. 验收题参考答案
- Tokenization 为什么会影响成本、延迟和截断?
模型按 token 计费、处理和生成。token 越多,输入成本、推理计算、延迟和上下文占用越高。超过上下文窗口会截断,导致关键信息丢失。
- Self-attention 中 Query、Key、Value 分别承担什么作用?
Query 表示当前位置要查询的信息,Key 表示每个位置可匹配的特征,Value 是被加权汇聚的内容。Attention 用 Query-Key 相似度决定从哪些 Value 读取信息。
- decoder-only LLM 为什么需要 causal mask?
生成任务按从左到右预测下一个 token。causal mask 防止模型在训练或生成当前位置时看到未来 token,避免信息泄漏。
- 预训练、SFT、RLHF、DPO 的目标分别是什么?
预训练学习通用语言和知识模式;SFT 用指令数据让模型学会按任务回答;RLHF 用人类偏好训练奖励并优化行为;DPO 直接用偏好对优化模型,简化传统 RLHF 流程。
- 为什么对齐不能替代权限控制和安全治理?
对齐改善模型行为倾向,但不能保证模型永远遵守权限、抵抗注入或正确处理敏感动作。权限、审计、审批和数据隔离必须由系统层实现。
- temperature 和 top_p 分别如何影响输出?
temperature 调整概率分布的尖锐程度,越高越随机;top_p 从累计概率最高的一组 token 中采样,限制候选范围。两者都会影响稳定性和多样性。
- 为什么长上下文不等于长期记忆?
长上下文只是在单次请求中放入更多信息,不会自动沉淀、更新、检索或治理历史知识。长期记忆需要存储、检索、更新、权限和遗忘机制。
- KV cache 优化了什么,不能解决什么?
KV cache 缓存历史 token 的 key/value,减少自回归生成中的重复计算,提高生成效率。它不降低输入理解成本,不解决幻觉、权限或长上下文质量问题。
- LLM 幻觉至少有哪些来源?
训练数据缺失或过时、上下文证据不足、检索错误、Prompt 诱导、解码随机性、任务要求超出模型能力、引用未校验、模型倾向生成流畅答案。
- 模型选型时为什么不能只看排行榜?
排行榜任务和业务任务可能不同。生产选型要看任务级质量、延迟、成本、稳定性、上下文、结构化输出、安全、合规和供应商风险。