参考答案

核对日期：2026-05-13。

1. 阶段练习参考方向

1.1 Tokenization 练习

合格结果应记录字符数、token 数和 token/字符比例，并解释差异来源。

常见观察：

英文技术文档通常 token/字符比较稳定。
中文不等于“一个字一个 token”，取决于 tokenizer。
TypeScript 代码会因为符号、缩进、变量名和字符串更耗 token。
JSON 和 Markdown 表格含大量结构符号，token 成本可能高于自然语言。
长上下文成本不只来自输入，也来自输出和多轮历史累积。

1.2 Attention 讲解练习

参考解释：

Query 表示当前位置想找什么信息，Key 表示每个位置能被匹配的特征，Value 表示匹配后真正传递的内容。Attention 通过 Query 和 Key 的相似度决定从哪些 Value 读取信息。

除以 sqrt(d_k) 是为了避免点积随维度增大变得过大，导致 softmax 过度尖锐、梯度不稳定。causal mask 防止生成当前位置时看到未来 token。multi-head attention 让不同头学习不同关系，例如语法、指代、局部结构和长距离依赖，不是简单重复。

1.3 推理参数实验

参考结论：

任务	推荐参数方向	原因
结构化抽取	低 temperature、较明确 max tokens	追求稳定和格式通过率
创意标题生成	中高 temperature 或 top_p	需要多样性
政策问答	低 temperature、强引用要求	事实准确和可追溯优先

实验报告至少比较格式通过率、事实正确率、输出多样性和延迟。不要只用“感觉更好”做结论。

1.4 长上下文失败样例

常见失败原因：

正确证据位于上下文中部，被模型忽略。
文档有冲突版本，模型没有识别最新或权威来源。
相关段落太多，低价值信息污染答案。
问题要求引用，但 Prompt 没有强制逐条证据支持。

缓解策略：

用 RAG 先检索和排序，不把所有内容塞进上下文。
元数据包含版本、日期、来源和权限。
冲突证据要求模型列出差异或拒答。
引用必须验证是否支持结论。

1.5 模型选型练习

参考判断：

场景	推荐方向	关键评测
客服草稿生成	中等模型 + RAG + 人工确认	引用正确率、采纳率、投诉率
合同条款风险提示	强模型 + 检索 + 人工审核	漏报率、误报率、证据支持
内容标签分类	小模型或传统分类器	准确率、成本、延迟、稳定性

模型选型不能只看能力，要同时看成本、延迟、上下文长度、结构化输出、合规、供应商稳定性和任务级 eval。

2. 项目评分样例

高分《LLM 机制与边界说明书》应具备：

能用图解释 token -> attention -> decoder block -> next token。
能区分预训练、SFT、RLHF、DPO 的目标。
有推理参数实验表，而不是概念描述。
至少 5 类幻觉来源都有工程缓解策略。
模型选型矩阵包含成本、延迟、风险和评测集。

不合格表现：

把 LLM 描述成“理解世界”的黑盒。
只列模型榜单，不做业务 eval。
混淆长上下文和长期记忆。
把对齐当作权限和安全治理。

3. 验收题参考答案

Tokenization 为什么会影响成本、延迟和截断？

模型按 token 计费、处理和生成。token 越多，输入成本、推理计算、延迟和上下文占用越高。超过上下文窗口会截断，导致关键信息丢失。

Self-attention 中 Query、Key、Value 分别承担什么作用？

Query 表示当前位置要查询的信息，Key 表示每个位置可匹配的特征，Value 是被加权汇聚的内容。Attention 用 Query-Key 相似度决定从哪些 Value 读取信息。

decoder-only LLM 为什么需要 causal mask？

生成任务按从左到右预测下一个 token。causal mask 防止模型在训练或生成当前位置时看到未来 token，避免信息泄漏。

预训练、SFT、RLHF、DPO 的目标分别是什么？

预训练学习通用语言和知识模式；SFT 用指令数据让模型学会按任务回答；RLHF 用人类偏好训练奖励并优化行为；DPO 直接用偏好对优化模型，简化传统 RLHF 流程。

为什么对齐不能替代权限控制和安全治理？

对齐改善模型行为倾向，但不能保证模型永远遵守权限、抵抗注入或正确处理敏感动作。权限、审计、审批和数据隔离必须由系统层实现。

temperature 和 top_p 分别如何影响输出？

temperature 调整概率分布的尖锐程度，越高越随机；top_p 从累计概率最高的一组 token 中采样，限制候选范围。两者都会影响稳定性和多样性。

为什么长上下文不等于长期记忆？

长上下文只是在单次请求中放入更多信息，不会自动沉淀、更新、检索或治理历史知识。长期记忆需要存储、检索、更新、权限和遗忘机制。

KV cache 优化了什么，不能解决什么？

KV cache 缓存历史 token 的 key/value，减少自回归生成中的重复计算，提高生成效率。它不降低输入理解成本，不解决幻觉、权限或长上下文质量问题。

LLM 幻觉至少有哪些来源？

训练数据缺失或过时、上下文证据不足、检索错误、Prompt 诱导、解码随机性、任务要求超出模型能力、引用未校验、模型倾向生成流畅答案。

模型选型时为什么不能只看排行榜？

排行榜任务和业务任务可能不同。生产选型要看任务级质量、延迟、成本、稳定性、上下文、结构化输出、安全、合规和供应商风险。

1. 阶段练习参考方向​

1.1 Tokenization 练习​

1.2 Attention 讲解练习​

1.3 推理参数实验​

1.4 长上下文失败样例​

1.5 模型选型练习​

2. 项目评分样例​

3. 验收题参考答案​