术语表

版本：v3.1（2026年5月）
面向场景：工程学习、方案评审、技术选型、架构设计、MLOps/LLMOps、项目文档撰写
定位：帮助团队快速对齐术语、理解核心概念、提升评审效率的实用手册。

重要免责声明
本手册不是学术论文词典，也不替代任何官方文档。API 接口、模型能力（上下文窗口、速率限制）、定价、安全合规要求等变化极快，请始终以最新官方文档为准（OpenAI、Anthropic、Google、AWS、Meta、Hugging Face 等）。本手册聚焦工程实践中高频、相对稳定的核心术语。

1. 基础概念

English Term	中文翻译	工程解释（方案评审重点）
Artificial Intelligence (AI)	人工智能	模拟人类感知、推理、决策的广义领域
Artificial General Intelligence (AGI)	通用人工智能	能胜任任意人类智力任务的 AI（目标状态）
Machine Learning (ML)	机器学习	数据驱动自动改进性能的核心方法
Deep Learning (DL)	深度学习	使用多层神经网络的 ML 分支
Neural Network	神经网络	由人工神经元层级连接构成的模型
Supervised Learning	监督学习	使用带标签数据训练
Unsupervised Learning	无监督学习	无标签数据发现模式（聚类、降维）
Self-Supervised Learning	自监督学习	数据自身生成监督信号的预训练方式
Semi-Supervised Learning	半监督学习	少量标签 + 大量无标签数据
Reinforcement Learning (RL)	强化学习	奖励驱动策略优化
Transfer Learning	迁移学习	知识跨任务迁移
Fine-Tuning / SFT	微调 / 监督微调	在基础模型上用领域数据继续训练
Foundation Model / Base Model	基础模型	海量预训练、可适配多任务的大模型
Large Language Model (LLM)	大语言模型	参数规模巨大（10B+）的 Transformer 语言模型
Large Vision Model (LVM)	大视觉模型	视觉领域的基础模型
Multimodal Model	多模态模型	同时处理文本、图像、音频、视频等
Generative AI (GenAI)	生成式 AI	能创造新内容（文本、图像、代码、视频）的 AI

2. 模型架构与关键组件

English Term	中文翻译	工程解释（方案评审重点）
Transformer	Transformer（变换器）	现代 LLM 核心架构
Attention Mechanism	注意力机制	Self / Multi-Head / Cross Attention
Embedding	嵌入（向量表示）	将 Token/文本转为稠密向量
Token / Tokenization	Token / 分词	模型最小处理单元（BPE / WordPiece）
Vocabulary	词表	模型支持的所有 Token 集合
Context Window	上下文窗口	单次最大处理 Token 数（关键能力与成本指标）
Parameter	参数	模型可学习权重数量（7B/70B/405B 等）
Hidden Dimension / FFN / MLP	隐藏维度 / 前馈网络	模型宽度与非线性变换
LoRA / QLoRA / DoRA	低秩适配 / 量化低秩适配	参数高效微调主流技术
PEFT	参数高效微调	LoRA 等系列方法的统称
Mixture of Experts (MoE)	专家混合模型	动态激活部分专家子网络，提升效率与性价比
Rotary Positional Embedding (RoPE)	旋转位置编码	当前主流长上下文位置编码
KV Cache / PagedAttention	KV 缓存	自回归生成加速核心技术
FlashAttention / FlashAttention-2/3	FlashAttention	显存高效注意力实现
Grouped Query Attention (GQA)	分组查询注意力	推理加速常用技术

3. 训练与优化

English Term	中文翻译	工程解释（方案评审重点）
Pre-training	预训练	海量无标签数据上训练通用能力
Instruction Tuning	指令微调	提升模型遵循指令的能力
RLHF / PPO	基于人类反馈的强化学习	主流对齐技术
DPO / ORPO / KTO	直接偏好优化	RLHF 的高效替代方案
Parameter-Efficient Fine-Tuning (PEFT)	参数高效微调	降低显存与计算成本
Quantization (GPTQ / AWQ / GGUF)	量化	低精度表示，减少显存加速推理
Knowledge Distillation	知识蒸馏	大模型压缩为小模型
Overfitting / Underfitting	过拟合 / 欠拟合	模型泛化能力判断核心
Hyperparameter / Learning Rate Scheduler	超参数 / 学习率调度器	训练稳定性关键
Batch Size / Gradient Accumulation	批大小 / 梯度累积	显存管理技术

4. 生成与推理（Inference）

English Term	中文翻译	工程解释（方案评审重点）
Prompt Engineering / Context Engineering	提示工程 / 上下文工程	引导模型输出的核心技巧
System Prompt / User Prompt	系统提示 / 用户提示	定义角色、规则与任务
Chain of Thought (CoT) / ToT	思维链 / 思维树	显著提升复杂推理能力
Zero-Shot / Few-Shot	零样本 / 少样本	示例数量对性能的影响
ReAct / ReWOO / Plan-and-Execute	ReAct	推理与行动交替框架
Function Calling / Tool Use	函数调用 / 工具使用	模型自主调用外部 API/工具
Temperature / Top-p / Top-k / Min-p	温度 / 核采样 / Top-k	生成随机性与多样性控制
Hallucination / Grounding	幻觉 / 事实 grounding	虚假内容控制
Streaming Output	流式输出	Token 逐个返回，提升用户体验
Speculative Decoding	推测解码	加速生成技术
Continuous Batching / Dynamic Batching	连续批处理	大幅提升吞吐量

5. 检索增强生成（RAG）

English Term	中文翻译	工程解释（方案评审重点）
RAG (Retrieval-Augmented Generation)	检索增强生成	注入外部知识，减少幻觉、提升时效性
Naive RAG / Advanced RAG / Agentic RAG / Graph RAG	朴素RAG / 高级RAG / 智能体RAG / 图RAG	不同成熟度实现方案
Embedding Model	嵌入模型	bge、e5、voyage、text-embedding-3 等
Vector Database / Vector Store	向量数据库	Pinecone、Milvus、Weaviate、Chroma、PGVector
Chunking Strategy / Semantic Chunking	文档分块策略	直接影响检索质量
Hybrid Search	混合搜索	向量语义 + 关键词 BM25
Re-ranking / Cross-Encoder	重排序	二次精排提升相关性
Metadata Filtering	元数据过滤	按时间、来源、权限过滤
Context Compression	上下文压缩	减少 Token 消耗
Parent-Child / Multi-Query Retrieval	父子检索 / 多查询检索	结构化检索优化

6. Agent 与高级应用

English Term	中文翻译	工程解释（方案评审重点）
Agent / LLM Agent	智能体	具备规划、工具使用、记忆的自主系统
Multi-Agent System	多智能体系统	多个 Agent 角色分工协作
Memory (Short-term / Vector / Graph)	记忆系统	对话历史与长期知识存储
Orchestration / Workflow	编排 / 工作流	LangGraph、CrewAI 等
Tool Integration	工具集成	API、数据库、浏览器、代码执行器
Autonomous Agent	自主智能体	可长时间独立运行

7. 部署与运维（MLOps / LLMOps）

English Term	中文翻译	工程解释（方案评审重点）
Model Serving / Inference Server	模型服务	将模型部署为可调用 API
Latency (TTFT / TPOT / E2E)	延迟	Time To First Token / 输出 Token 耗时
Throughput (Tokens Per Second)	吞吐量	系统每秒处理 Token 数
vLLM / TGI / TensorRT-LLM / SGLang / Ollama	高效推理引擎	生产级高性能服务框架
A/B Testing / Canary / Shadow Deployment	A/B 测试 / 金丝雀 / 影子部署	在线实验验证方法
Model Drift / Data Drift	模型漂移 / 数据漂移	性能衰退监控重点
Cost per 1M Tokens	每百万 Token 成本	商业方案核心经济指标
Guardrails / Safety Layer	防护栏	输入输出安全过滤机制
Observability / Tracing	可观测性	LangSmith、Phoenix 等工具

8. 评估指标与基准

English Term	中文翻译	工程解释（方案评审重点）
MMLU / GPQA / MMMU	综合能力基准	知识、多模态评估
HumanEval / SWE-Bench	代码生成基准	编程能力
GSM8K / MATH	数学推理基准	数学能力
Perplexity (PPL)	困惑度	语言模型不确定性
BLEU / ROUGE / BERTScore	文本生成评估指标	翻译、摘要质量
Faithfulness / Relevance	忠实度 / 相关性	RAG 核心指标
RAGAS / ARES / TruLens	RAG 评估框架	端到端 RAG 质量评估
Toxicity / Bias / Fairness Metrics	毒性 / 偏差 / 公平性指标	安全与伦理评估

9. 安全、对齐与合规

English Term	中文翻译	工程解释（方案评审重点）
AI Alignment	AI 对齐	使模型行为符合人类意图与价值观
Red Teaming	红队测试	对抗性安全漏洞挖掘
Prompt Injection / Jailbreak	提示注入 / 越狱	常见攻击方式
Adversarial Attack / Data Poisoning	对抗攻击 / 数据投毒	训练与推理威胁
PII Leakage	个人可识别信息泄露	隐私保护重点
Guardrails / Constitutional AI	防护栏 / 宪法 AI	规则化安全约束
Responsible AI / AI Governance / AI Act	负责任 AI / AI 治理	整体合规框架

10. 计算机视觉与多模态及其他

English Term	中文翻译	工程解释
CNN / Vision Transformer (ViT)	卷积神经网络 / ViT	视觉骨干网络
Object Detection / Segmentation / SAM	目标检测 / 分割 / SAM	视觉任务
OCR / Diffusion Model	OCR / 扩散模型	文档解析与生成
CLIP / SigLIP	CLIP	图像-文本对齐模型
Edge AI / On-Device Inference	边缘 AI / 设备端推理	低延迟本地部署
Federated Learning	联邦学习	隐私保护分布式训练

11. 常用框架与工具

English Term	中文翻译	工程解释
PyTorch / JAX / TensorFlow	PyTorch / JAX / TensorFlow	主流训练框架
Hugging Face Transformers / PEFT / Datasets	Hugging Face	模型生态标准库
LangChain / LlamaIndex / LangGraph	LangChain / LlamaIndex	LLM 应用开发框架
CrewAI / AutoGen	CrewAI / AutoGen	多 Agent 框架
Docker / Kubernetes / Helm	Docker / Kubernetes	容器化与编排
CUDA / ROCm / TensorRT	CUDA / TensorRT	GPU 加速

12. 量化技术对比

English Term	中文翻译	量化位宽 / 类型	优点	缺点	适用场景（方案评审推荐）
FP16 / BF16	FP16 / BF16	16-bit 浮点	精度高，训练稳定	显存占用大	训练、部分推理
INT8	INT8 量化	8-bit 整数	显存减半，速度提升	精度略有下降	中型模型部署
INT4 / GPTQ	INT4 / GPTQ	4-bit	显存大幅降低（约 1/4）	需要校准数据，精度损失明显	大模型本地部署
AWQ	AWQ	4-bit / 混合	激活值感知，精度优于 GPTQ	量化时间较长	性能敏感生产环境
GGUF	GGUF	动态多精度（Q4/Q5/Q8）	生态好（llama.cpp），支持 CPU/GPU	需特定引擎	本地 / 边缘部署
FP8	FP8 量化	8-bit 浮点	精度优于 INT8	硬件支持要求高（Hopper+）	新一代 GPU 高性能推理
BitsAndBytes	BitsAndBytes	8/4-bit	Hugging Face 原生支持，易用	速度不如 vLLM + AWQ	快速原型开发
Quantization-Aware Training (QAT)	量化感知训练	-	精度损失最小	训练成本高	对精度要求极高的场景

13. Agent 框架对比

Framework	中文名称	核心优势	缺点	适用场景（方案评审推荐）
LangGraph	LangGraph	状态机编排、可视化、持久化强	学习曲线较陡	复杂、生产级可控 Agent
CrewAI	CrewAI	角色分工清晰、易上手	灵活性稍弱	业务流程自动化、多角色协作
AutoGen	AutoGen	多 Agent 对话能力强	配置复杂，调试难度高	研究型、动态多 Agent
LlamaIndex Workflows	LlamaIndex 工作流	与 RAG 深度集成	Agent 能力相对较弱	RAG 增强型 Agent
LangChain	LangChain	生态最完善、组件丰富	抽象层过多，生产性能易出问题	快速原型
Semantic Kernel	Semantic Kernel	.NET 支持好，企业集成佳	社区相对较小	企业级 .NET 项目

14. 垂直行业常用术语

English Term	中文翻译	所属行业	工程解释（方案评审重点）
HIPAA	HIPAA	医疗	美国医疗数据隐私合规
Medical LLM / Clinical LLM	医疗大模型	医疗	专为临床、病历设计的 LLM
DICOM	DICOM	医疗影像	医学图像标准格式
RegTech	监管科技	金融	AI 辅助金融合规
Fraud Detection	欺诈检测	金融	实时交易反欺诈
KYC / AML	KYC / AML	金融	客户身份验证 / 反洗钱
ESG Scoring	ESG 评分	金融	环境、社会、治理评估
Legal LLM / Contract Review	法律大模型 / 合同审查	法律	合同风险识别
eDiscovery	电子取证	法律	电子文档检索分析
Predictive Maintenance	预测性维护	工业	设备故障预测
Digital Twin	数字孪生	工业	物理实体实时数字映射
Domain-Specific Model	垂直领域模型	多行业	针对特定行业微调的模型

工程方案评审 Checklist（推荐）

模型选型（闭源 vs 开源、上下文窗口、量化策略）
知识注入方式（RAG 分块策略、Embedding 模型、Agent 编排）
性能与成本（Latency、Throughput、推理引擎、每百万 Token 成本）
安全合规（Guardrails、Red Teaming、行业法规如 HIPAA）
垂直领域适配（是否需要 Domain-Specific Fine-Tuning）
运维计划（漂移检测、可观测性、A/B 测试）

1. 基础概念​

2. 模型架构与关键组件​

3. 训练与优化​

4. 生成与推理（Inference）​

5. 检索增强生成（RAG）​

6. Agent 与高级应用​

7. 部署与运维（MLOps / LLMOps）​

8. 评估指标与基准​

9. 安全、对齐与合规​

10. 计算机视觉与多模态及其他​

11. 常用框架与工具​

12. 量化技术对比​

13. Agent 框架对比​

14. 垂直行业常用术语​