跳到主要内容

核心术语表

核对日期：2026-05-13。

1. 使用原则

这份术语表用于统一整套课程的叫法。它不是百科词典，而是工程学习中的“边界词典”：每个术语都要帮助你判断它解决什么问题、不解决什么问题、容易和什么混淆。

阅读阶段文档时，遇到同一个词有不同上下文，以本表定义为默认解释；如果某阶段有更窄的工程语境，以阶段文档为准。

2. 基础层术语

术语	课程中的含义	主要解决的问题	常见混淆
AI	让机器完成过去需要人类智能参与的任务的总称	总体能力分类	把 AI 等同于 LLM
ML	从数据中学习模式并做预测或决策	分类、回归、排序、推荐	把所有 AI 都叫机器学习
DL	使用多层神经网络学习表示	图像、语音、语言等复杂模式	认为深度学习必然比传统 ML 好
Generative AI	生成文本、图像、音频、代码等内容的模型体系	开放式生成和改写	忽略真实性和可控性
LLM	大语言模型，擅长语言理解、生成、推理和泛化	文本任务、代码任务、多步骤推理辅助	把 LLM 当作数据库或确定性函数
Transformer	现代 LLM 的核心架构家族	上下文建模和序列生成	只记 attention 公式，不理解工程边界
Token	模型处理文本的基本单位	成本、上下文长度、生成控制	把 token 当作字符或单词
Context Window	单次请求可放入的上下文上限	长文档、多轮对话、工具轨迹	以为窗口越长效果必然越好
Embedding	把文本、图像等对象映射为向量表示	语义检索、聚类、相似度计算	把向量相似当作事实正确

3. 应用工程术语

术语	课程中的含义	主要解决的问题	常见混淆
Prompt	给模型的任务指令、上下文、约束和输出要求	引导模型完成局部任务	把 Prompt 当作安全边界
Context Engineering	选择、组织、裁剪和注入上下文的工程方法	稳定输入质量和输出结构	只调措辞，不管理数据来源
Structured Output	让模型输出可解析结构，如 JSON 或 schema	接入业务系统和自动校验	只靠模型自觉，不做 schema 校验
Tool Calling	让模型按 schema 请求调用外部工具	连接 API、数据库、检索和业务动作	把工具暴露等同于授权执行
Workflow	代码预定义流程，模型只在固定节点参与	稳定、可控、可审计的业务流程	把所有多步骤 LLM 应用都叫 Agent
Agent	模型在受控循环中根据目标、状态和反馈动态选择下一步	路径不固定的多步任务	把聊天机器人或单次调用叫 Agent
Multi-Agent	多个职责分离的 Agent 协作完成任务	并行、角色隔离、复杂任务分工	让多个模型互聊但无责任边界
RAG	检索增强生成，把外部知识带入模型上下文	知识库问答、引用回答、时效信息	把文档放进向量库就算可靠
Agentic RAG	模型动态决定检索源、检索轮次或校验策略的 RAG	多源、多轮、复杂检索任务	简单 FAQ 也过度设计
MCP	Model Context Protocol，一类标准化连接工具和数据源的协议	工具连接、上下文暴露、客户端和服务器边界	以为接入 MCP 就自动安全
HITL	Human in the Loop，人类在环审批或确认	高风险动作控制、质量复核	只做形式确认，不展示证据和影响范围

4. 质量与评测术语

术语	课程中的含义	主要解决的问题	常见混淆
Eval	对模型、RAG、Workflow 或 Agent 的任务级评测	可比较、可回归、可发布	只看几条 demo 样例
Rubric	评分标准，定义什么是好、差、不可接受	主观任务的稳定评分	标准太模糊，导致评分漂移
Golden Set	人工确认过的高质量评测样例集合	回归测试和模型对比	样例太少或只覆盖正常路径
Regression Eval	每次变更后重复运行的回归评测	防止 Prompt、模型或数据更新引入退化	只在上线前临时测一次
LLM-as-Judge	用模型辅助评分	扩展评测规模	不做人工校准就相信 judge
Trace	一次任务的中间步骤、工具调用、输入输出和结果记录	调试、审计、轨迹评测	只保存最终答案
Groundedness	回答被给定证据支持的程度	RAG 幻觉识别	把“回答听起来对”当作有依据
Faithfulness	回答是否忠实于上下文和证据	防止证据外编造	和事实正确性混为一谈
Hallucination	模型生成未被事实或证据支持的内容	风险识别和拒答策略	只把离谱错误叫幻觉
Citation	引用或来源标记	答案可追溯	引用装饰化，来源不支持结论
Refusal	在证据不足、权限不足或风险过高时拒答或转人工	安全和可信边界	把拒答看作失败

5. 生产化与安全术语

术语	课程中的含义	主要解决的问题	常见混淆
LLMOps	模型调用的生产治理体系	路由、监控、成本、灰度、回滚、审计	只封装一个 API client
Gateway	模型调用网关	统一鉴权、限流、日志、路由和预算	业务代码里散落 provider 调用
Provider Adapter	屏蔽不同模型供应商 API 差异的适配层	多供应商切换和回退	抹平所有能力差异
Routing	根据任务、成本、延迟、风险选择模型或链路	成本和质量平衡	只按价格选模型
Fallback	主链路失败时的降级或备用策略	稳定性和可用性	未经评测就切到弱模型
Guardrail	系统级约束、校验、拦截和审批机制	风险控制	只写安全 Prompt
Prompt Injection	恶意输入试图覆盖系统指令或改变行为	LLM 应用安全	认为只要隐藏系统 Prompt 就安全
Indirect Prompt Injection	攻击内容藏在网页、文档、邮件等被模型读取的外部数据中	RAG 和 Agent 安全	把外部资料当可信指令
Data Exfiltration	敏感数据被模型、工具或日志链路泄漏	隐私、合规、商业安全	只关注模型输出，不看日志和工具
Excessive Agency	给 Agent 过多权限、过长自主链路或缺少审批	越权、误操作、成本失控	把自治程度当作能力指标
Audit Log	可追溯的审计记录	事故复盘和责任追踪	只记录成功结果
Scoped Credential	绑定用户、任务、工具、资源范围和过期时间的临时凭据	降低工具调用越权和密钥泄漏风险	所有工具共用一个高权限 token
Policy Decision	策略层对一次动作的放行、拒绝或升级审批结果	让权限、安全和审计可追踪	让模型自行决定是否允许执行
Release Gate	发布门禁，模型、Prompt、RAG、Agent 或安全策略变更上线前的质量阈值	防止回归进入生产	只看总体平均分
Kill Switch	快速停用功能、工具、模型链路或供应商的开关	事故止血和风险隔离	出事后才临时写开关
RBAC / ABAC	基于角色或属性的访问控制	权限隔离	只在前端隐藏入口
Rate Limit	请求频率限制	防滥用和成本控制	只依赖供应商默认限流
Budget	单用户、单任务、单团队的成本预算	成本可控	上线后再看账单
SLO / SLA	服务目标和服务承诺	生产可用性管理	只看平均延迟，不看尾延迟

6. 术语使用约定

LLM、RAG、Agent、Workflow、Eval、LLMOps、MCP、HITL 在正文中保留英文缩写。
第一次出现较窄术语时，尽量给出中文解释，例如 HITL（人类在环）。
Agent 不翻译成“智能体”作为默认写法，除非讨论中文语境或概念史。
Eval 在工程语境下指评测工程，不等同于一次人工主观打分。
Trace 指可回放轨迹，不只是普通日志。
Groundedness 优先解释为“答案被证据支持程度”，不要泛化为“看起来可靠”。

1. 使用原则
2. 基础层术语
3. 应用工程术语
4. 质量与评测术语
5. 生产化与安全术语
6. 术语使用约定