核对日期:2026-05-13。
1. 使用原则
这份术语表用于统一整套课程的叫法。它不是百科词典,而是工程学习中的“边界词典”:每个术语都要帮助你判断它解决什么问题、不解决什么问题、容易和什么混淆。
阅读阶段文档时,遇到同一个词有不同上下文,以本表定义为默认解释;如果某阶段有更窄的工程语境,以阶段文档为准。
2. 基础层术语
| 术语 | 课程中的含义 | 主要解决的问题 | 常见混淆 |
|---|
| AI | 让机器完成过去需要人类智能参与的任务的总称 | 总体能力分类 | 把 AI 等同于 LLM |
| ML | 从数据中学习模式并做预测或决策 | 分类、回归、排序、推荐 | 把所有 AI 都叫机器学习 |
| DL | 使用多层神经网络学习表示 | 图像、语音、语言等复杂模式 | 认为深度学习必然比传统 ML 好 |
| Generative AI | 生成文本、图像、音频、代码等内容的模型体系 | 开放式生成和改写 | 忽略真实性和可控性 |
| LLM | 大语言模型,擅长语言理解、生成、推理和泛化 | 文本任务、代码任务、多步骤推理辅助 | 把 LLM 当作数据库或确定性函数 |
| Transformer | 现代 LLM 的核心架构家族 | 上下文建模和序列生成 | 只记 attention 公式,不理解工程边界 |
| Token | 模型处理文本的基本单位 | 成本、上下文长度、生成控制 | 把 token 当作字符或单词 |
| Context Window | 单次请求可放入的上下文上限 | 长文档、多轮对话、工具轨迹 | 以为窗口越长效果必然越好 |
| Embedding | 把文本、图像等对象映射为向量表示 | 语义检索、聚类、相似度计算 | 把向量相似当作事实正确 |
3. 应用工程术语
| 术语 | 课程中的含义 | 主要解决的问题 | 常见混淆 |
|---|
| Prompt | 给模型的任务指令、上下文、约束和输出要求 | 引导模型完成局部任务 | 把 Prompt 当作安全边界 |
| Context Engineering | 选择、组织、裁剪和注入上下文的工程方法 | 稳定输入质量和输出结构 | 只调措辞,不管理数据来源 |
| Structured Output | 让模型输出可解析结构,如 JSON 或 schema | 接入业务系统和自动校验 | 只靠模型自觉,不做 schema 校验 |
| Tool Calling | 让模型按 schema 请求调用外部工具 | 连接 API、数据库、检索和业务动作 | 把工具暴露等同于授权执行 |
| Workflow | 代码预定义流程,模型只在固定节点参与 | 稳定、可控、可审计的业务流程 | 把所有多步骤 LLM 应用都叫 Agent |
| Agent | 模型在受控循环中根据目标、状态和反馈动态选择下一步 | 路径不固定的多步任务 | 把聊天机器人或单次调用叫 Agent |
| Multi-Agent | 多个职责分离的 Agent 协作完成任务 | 并行、角色隔离、复杂任务分工 | 让多个模型互聊但无责任边界 |
| RAG | 检索增强生成,把外部知识带入模型上下文 | 知识库问答、引用回答、时效信息 | 把文档放进向量库就算可靠 |
| Agentic RAG | 模型动态决定检索源、检索轮次或校验策略的 RAG | 多源、多轮、复杂检索任务 | 简单 FAQ 也过度设计 |
| MCP | Model Context Protocol,一类标准化连接工具和数据源的协议 | 工具连接、上下文暴露、客户端和服务器边界 | 以为接入 MCP 就自动安全 |
| HITL | Human in the Loop,人类在环审批或确认 | 高风险动作控制、质量复核 | 只做形式确认,不展示证据和影响范围 |
4. 质量与评测术语
| 术语 | 课程中的含义 | 主要解决的问题 | 常见混淆 |
|---|
| Eval | 对模型、RAG、Workflow 或 Agent 的任务级评测 | 可比较、可回归、可发布 | 只看几条 demo 样例 |
| Rubric | 评分标准,定义什么是好、差、不可接受 | 主观任务的稳定评分 | 标准太模糊,导致评分漂移 |
| Golden Set | 人工确认过的高质量评测样例集合 | 回归测试和模型对比 | 样例太少或只覆盖正常路径 |
| Regression Eval | 每次变更后重复运行的回归评测 | 防止 Prompt、模型或数据更新引入退化 | 只在上线前临时测一次 |
| LLM-as-Judge | 用模型辅助评分 | 扩展评测规模 | 不做人工校准就相信 judge |
| Trace | 一次任务的中间步骤、工具调用、输入输出和结果记录 | 调试、审计、轨迹评测 | 只保存最终答案 |
| Groundedness | 回答被给定证据支持的程度 | RAG 幻觉识别 | 把“回答听起来对”当作有依据 |
| Faithfulness | 回答是否忠实于上下文和证据 | 防止证据外编造 | 和事实正确性混为一谈 |
| Hallucination | 模型生成未被事实或证据支持的内容 | 风险识别和拒答策略 | 只把离谱错误叫幻觉 |
| Citation | 引用或来源标记 | 答案可追溯 | 引用装饰化,来源不支持结论 |
| Refusal | 在证据不足、权限不足或风险过高时拒答或转人工 | 安全和可信边界 | 把拒答看作失败 |
5. 生产化与安全术语
| 术语 | 课程中的含义 | 主要解决的问题 | 常见混淆 |
|---|
| LLMOps | 模型调用的生产治理体系 | 路由、监控、成本、灰度、回滚、审计 | 只封装一个 API client |
| Gateway | 模型调用网关 | 统一鉴权、限流、日志、路由和预算 | 业务代码里散落 provider 调用 |
| Provider Adapter | 屏蔽不同模型供应商 API 差异的适配层 | 多供应商切换和回退 | 抹平所有能力差异 |
| Routing | 根据任务、成本、延迟、风险选择模型或链路 | 成本和质量平衡 | 只按价格选模型 |
| Fallback | 主链路失败时的降级或备用策略 | 稳定性和可用性 | 未经评测就切到弱模型 |
| Guardrail | 系统级约束、校验、拦截和审批机制 | 风险控制 | 只写安全 Prompt |
| Prompt Injection | 恶意输入试图覆盖系统指令或改变行为 | LLM 应用安全 | 认为只要隐藏系统 Prompt 就安全 |
| Indirect Prompt Injection | 攻击内容藏在网页、文档、邮件等被模型读取的外部数据中 | RAG 和 Agent 安全 | 把外部资料当可信指令 |
| Data Exfiltration | 敏感数据被模型、工具或日志链路泄漏 | 隐私、合规、商业安全 | 只关注模型输出,不看日志和工具 |
| Excessive Agency | 给 Agent 过多权限、过长自主链路或缺少审批 | 越权、误操作、成本失控 | 把自治程度当作能力指标 |
| Audit Log | 可追溯的审计记录 | 事故复盘和责任追踪 | 只记录成功结果 |
| Scoped Credential | 绑定用户、任务、工具、资源范围和过期时间的临时凭据 | 降低工具调用越权和密钥泄漏风险 | 所有工具共用一个高权限 token |
| Policy Decision | 策略层对一次动作的放行、拒绝或升级审批结果 | 让权限、安全和审计可追踪 | 让模型自行决定是否允许执行 |
| Release Gate | 发布门禁,模型、Prompt、RAG、Agent 或安全策略变更上线前的质量阈值 | 防止回归进入生产 | 只看总体平均分 |
| Kill Switch | 快速停用功能、工具、模型链路或供应商的开关 | 事故止血和风险隔离 | 出事后才临时写开关 |
| RBAC / ABAC | 基于角色或属性的访问控制 | 权限隔离 | 只在前端隐藏入口 |
| Rate Limit | 请求频率限制 | 防滥用和成本控制 | 只依赖供应商默认限流 |
| Budget | 单用户、单任务、单团队的成本预算 | 成本可控 | 上线后再看账单 |
| SLO / SLA | 服务目标和服务承诺 | 生产可用性管理 | 只看平均延迟,不看尾延迟 |
6. 术语使用约定
LLM、RAG、Agent、Workflow、Eval、LLMOps、MCP、HITL 在正文中保留英文缩写。
- 第一次出现较窄术语时,尽量给出中文解释,例如
HITL(人类在环)。
Agent 不翻译成“智能体”作为默认写法,除非讨论中文语境或概念史。
Eval 在工程语境下指评测工程,不等同于一次人工主观打分。
Trace 指可回放轨迹,不只是普通日志。
Groundedness 优先解释为“答案被证据支持程度”,不要泛化为“看起来可靠”。