版本:v3.1(2026年5月)
面向场景:工程学习、方案评审、技术选型、架构设计、MLOps/LLMOps、项目文档撰写
定位:帮助团队快速对齐术语、理解核心概念、提升评审效率的实用手册。
重要免责声明
本手册不是学术论文词典,也不替代任何官方文档。API 接口、模型能力(上下文窗口、速率限制)、定价、安全合规要求等变化极快,请始终以最新官方文档为准(OpenAI、Anthropic、Google、AWS、Meta、Hugging Face 等)。本手册聚焦工程实践中高频、相对稳定的核心术语。
1. 基础概念
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| Artificial Intelligence (AI) | 人工智能 | 模拟人类感知、推理、决策的广义领域 |
| Artificial General Intelligence (AGI) | 通用人工智能 | 能胜任任意人类智力任务的 AI(目标状态) |
| Machine Learning (ML) | 机器学习 | 数据驱动自动改进性能的核心方法 |
| Deep Learning (DL) | 深度学习 | 使用多层神经网络的 ML 分支 |
| Neural Network | 神经网络 | 由人工神经元层级连接构成的模型 |
| Supervised Learning | 监督学习 | 使用带标签数据训练 |
| Unsupervised Learning | 无监督学习 | 无标签数据发现模式(聚类、降维) |
| Self-Supervised Learning | 自监督学习 | 数据自身生成监督信号的预训练方式 |
| Semi-Supervised Learning | 半监督学习 | 少量标签 + 大量无标签数据 |
| Reinforcement Learning (RL) | 强化学习 | 奖励驱动策略优化 |
| Transfer Learning | 迁移学习 | 知识跨任务迁移 |
| Fine-Tuning / SFT | 微调 / 监督微调 | 在基础模型上用领域数据继续训练 |
| Foundation Model / Base Model | 基础模型 | 海量预训练、可适配多任务的大模型 |
| Large Language Model (LLM) | 大语言模型 | 参数规模巨大(10B+)的 Transformer 语言模型 |
| Large Vision Model (LVM) | 大视觉模型 | 视觉领域的基础模型 |
| Multimodal Model | 多模态模型 | 同时处理文本、图像、音频、视频等 |
| Generative AI (GenAI) | 生成式 AI | 能创造新内容(文本、图像、代码、视频)的 AI |
2. 模型架构与关键组件
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| Transformer | Transformer(变换器) | 现代 LLM 核心架构 |
| Attention Mechanism | 注意力机制 | Self / Multi-Head / Cross Attention |
| Embedding | 嵌入(向量表示) | 将 Token/文本转为稠密向量 |
| Token / Tokenization | Token / 分词 | 模型最小处理单元(BPE / WordPiece) |
| Vocabulary | 词表 | 模型支持的所有 Token 集合 |
| Context Window | 上下文窗口 | 单次最大处理 Token 数(关键能力与成本指标) |
| Parameter | 参数 | 模型可学习权重数量(7B/70B/405B 等) |
| Hidden Dimension / FFN / MLP | 隐藏维度 / 前馈网络 | 模型宽度与非线性变换 |
| LoRA / QLoRA / DoRA | 低秩适配 / 量化低秩适配 | 参数高效微调主流技术 |
| PEFT | 参数高效微调 | LoRA 等系列方法的统称 |
| Mixture of Experts (MoE) | 专家混合模型 | 动态激活部分专家子网络,提升效率与性价比 |
| Rotary Positional Embedding (RoPE) | 旋转位置编码 | 当前主流长上下文位置编码 |
| KV Cache / PagedAttention | KV 缓存 | 自回归生成加速核心技术 |
| FlashAttention / FlashAttention-2/3 | FlashAttention | 显存高效注意力实现 |
| Grouped Query Attention (GQA) | 分组查询注意力 | 推理加速常用技术 |
3. 训练与优化
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| Pre-training | 预训练 | 海量无标签数据上训练通用能力 |
| Instruction Tuning | 指令微调 | 提升模型遵循指令的能力 |
| RLHF / PPO | 基于人类反馈的强化学习 | 主流对齐技术 |
| DPO / ORPO / KTO | 直接偏好优化 | RLHF 的高效替代方案 |
| Parameter-Efficient Fine-Tuning (PEFT) | 参数高效微调 | 降低显存与计算成本 |
| Quantization (GPTQ / AWQ / GGUF) | 量化 | 低精度表示,减少显存加速推理 |
| Knowledge Distillation | 知识蒸馏 | 大模型压缩为小模型 |
| Overfitting / Underfitting | 过拟合 / 欠拟合 | 模型泛化能力判断核心 |
| Hyperparameter / Learning Rate Scheduler | 超参数 / 学习率调度器 | 训练稳定性关键 |
| Batch Size / Gradient Accumulation | 批大小 / 梯度累积 | 显存管理技术 |
4. 生成与推理(Inference)
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| Prompt Engineering / Context Engineering | 提示工程 / 上下文工程 | 引导模型输出的核心技巧 |
| System Prompt / User Prompt | 系统提示 / 用户提示 | 定义角色、规则与任务 |
| Chain of Thought (CoT) / ToT | 思维链 / 思维树 | 显著提升复杂推理能力 |
| Zero-Shot / Few-Shot | 零样本 / 少样本 | 示例数量对性能的影响 |
| ReAct / ReWOO / Plan-and-Execute | ReAct | 推理与行动交替框架 |
| Function Calling / Tool Use | 函数调用 / 工具使用 | 模型自主调用外部 API/工具 |
| Temperature / Top-p / Top-k / Min-p | 温度 / 核采样 / Top-k | 生成随机性与多样性控制 |
| Hallucination / Grounding | 幻觉 / 事实 grounding | 虚假内容控制 |
| Streaming Output | 流式输出 | Token 逐个返回,提升用户体验 |
| Speculative Decoding | 推测解码 | 加速生成技术 |
| Continuous Batching / Dynamic Batching | 连续批处理 | 大幅提升吞吐量 |
5. 检索增强生成(RAG)
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| RAG (Retrieval-Augmented Generation) | 检索增强生成 | 注入外部知识,减少幻觉、提升时效性 |
| Naive RAG / Advanced RAG / Agentic RAG / Graph RAG | 朴素RAG / 高级RAG / 智能体RAG / 图RAG | 不同成熟度实现方案 |
| Embedding Model | 嵌入模型 | bge、e5、voyage、text-embedding-3 等 |
| Vector Database / Vector Store | 向量数据库 | Pinecone、Milvus、Weaviate、Chroma、PGVector |
| Chunking Strategy / Semantic Chunking | 文档分块策略 | 直接影响检索质量 |
| Hybrid Search | 混合搜索 | 向量语义 + 关键词 BM25 |
| Re-ranking / Cross-Encoder | 重排序 | 二次精排提升相关性 |
| Metadata Filtering | 元数据过滤 | 按时间、来源、权限过滤 |
| Context Compression | 上下文压缩 | 减少 Token 消耗 |
| Parent-Child / Multi-Query Retrieval | 父子检索 / 多查询检索 | 结构化检索优化 |
6. Agent 与高级应用
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| Agent / LLM Agent | 智能体 | 具备规划、工具使用、记忆的自主系统 |
| Multi-Agent System | 多智能体系统 | 多个 Agent 角色分工协作 |
| Memory (Short-term / Vector / Graph) | 记忆系统 | 对话历史与长期知识存储 |
| Orchestration / Workflow | 编排 / 工作流 | LangGraph、CrewAI 等 |
| Tool Integration | 工具集成 | API、数据库、浏览器、代码执行器 |
| Autonomous Agent | 自主智能体 | 可长时间独立运行 |
7. 部署与运维(MLOps / LLMOps)
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| Model Serving / Inference Server | 模型服务 | 将模型部署为可调用 API |
| Latency (TTFT / TPOT / E2E) | 延迟 | Time To First Token / 输出 Token 耗时 |
| Throughput (Tokens Per Second) | 吞吐量 | 系统每秒处理 Token 数 |
| vLLM / TGI / TensorRT-LLM / SGLang / Ollama | 高效推理引擎 | 生产级高性能服务框架 |
| A/B Testing / Canary / Shadow Deployment | A/B 测试 / 金丝雀 / 影子部署 | 在线实验验证方法 |
| Model Drift / Data Drift | 模型漂移 / 数据漂移 | 性能衰退监控重点 |
| Cost per 1M Tokens | 每百万 Token 成本 | 商业方案核心经济指标 |
| Guardrails / Safety Layer | 防护栏 | 输入输出安全过滤机制 |
| Observability / Tracing | 可观测性 | LangSmith、Phoenix 等工具 |
8. 评估指标与基准
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| MMLU / GPQA / MMMU | 综合能力基准 | 知识、多模态评估 |
| HumanEval / SWE-Bench | 代码生成基准 | 编程能力 |
| GSM8K / MATH | 数学推理基准 | 数学能力 |
| Perplexity (PPL) | 困惑度 | 语言模型不确定性 |
| BLEU / ROUGE / BERTScore | 文本生成评估指标 | 翻译、摘要质量 |
| Faithfulness / Relevance | 忠实度 / 相关性 | RAG 核心指标 |
| RAGAS / ARES / TruLens | RAG 评估框架 | 端到端 RAG 质量评估 |
| Toxicity / Bias / Fairness Metrics | 毒性 / 偏差 / 公平性指标 | 安全与伦理评估 |
9. 安全、对齐与合规
| English Term | 中文翻译 | 工程解释(方案评审重点) |
|---|
| AI Alignment | AI 对齐 | 使模型行为符合人类意图与价值观 |
| Red Teaming | 红队测试 | 对抗性安全漏洞挖掘 |
| Prompt Injection / Jailbreak | 提示注入 / 越狱 | 常见攻击方式 |
| Adversarial Attack / Data Poisoning | 对抗攻击 / 数据投毒 | 训练与推理威胁 |
| PII Leakage | 个人可识别信息泄露 | 隐私保护重点 |
| Guardrails / Constitutional AI | 防护栏 / 宪法 AI | 规则化安全约束 |
| Responsible AI / AI Governance / AI Act | 负责任 AI / AI 治理 | 整体合规框架 |
10. 计算机视觉与多模态及其他
| English Term | 中文翻译 | 工程解释 |
|---|
| CNN / Vision Transformer (ViT) | 卷积神经网络 / ViT | 视觉骨干网络 |
| Object Detection / Segmentation / SAM | 目标检测 / 分割 / SAM | 视觉任务 |
| OCR / Diffusion Model | OCR / 扩散模型 | 文档解析与生成 |
| CLIP / SigLIP | CLIP | 图像-文本对齐模型 |
| Edge AI / On-Device Inference | 边缘 AI / 设备端推理 | 低延迟本地部署 |
| Federated Learning | 联邦学习 | 隐私保护分布式训练 |
11. 常用框架与工具
| English Term | 中文翻译 | 工程解释 |
|---|
| PyTorch / JAX / TensorFlow | PyTorch / JAX / TensorFlow | 主流训练框架 |
| Hugging Face Transformers / PEFT / Datasets | Hugging Face | 模型生态标准库 |
| LangChain / LlamaIndex / LangGraph | LangChain / LlamaIndex | LLM 应用开发框架 |
| CrewAI / AutoGen | CrewAI / AutoGen | 多 Agent 框架 |
| Docker / Kubernetes / Helm | Docker / Kubernetes | 容器化与编排 |
| CUDA / ROCm / TensorRT | CUDA / TensorRT | GPU 加速 |
12. 量化技术对比
| English Term | 中文翻译 | 量化位宽 / 类型 | 优点 | 缺点 | 适用场景(方案评审推荐) |
|---|
| FP16 / BF16 | FP16 / BF16 | 16-bit 浮点 | 精度高,训练稳定 | 显存占用大 | 训练、部分推理 |
| INT8 | INT8 量化 | 8-bit 整数 | 显存减半,速度提升 | 精度略有下降 | 中型模型部署 |
| INT4 / GPTQ | INT4 / GPTQ | 4-bit | 显存大幅降低(约 1/4) | 需要校准数据,精度损失明显 | 大模型本地部署 |
| AWQ | AWQ | 4-bit / 混合 | 激活值感知,精度优于 GPTQ | 量化时间较长 | 性能敏感生产环境 |
| GGUF | GGUF | 动态多精度(Q4/Q5/Q8) | 生态好(llama.cpp),支持 CPU/GPU | 需特定引擎 | 本地 / 边缘部署 |
| FP8 | FP8 量化 | 8-bit 浮点 | 精度优于 INT8 | 硬件支持要求高(Hopper+) | 新一代 GPU 高性能推理 |
| BitsAndBytes | BitsAndBytes | 8/4-bit | Hugging Face 原生支持,易用 | 速度不如 vLLM + AWQ | 快速原型开发 |
| Quantization-Aware Training (QAT) | 量化感知训练 | - | 精度损失最小 | 训练成本高 | 对精度要求极高的场景 |
13. Agent 框架对比
| Framework | 中文名称 | 核心优势 | 缺点 | 适用场景(方案评审推荐) |
|---|
| LangGraph | LangGraph | 状态机编排、可视化、持久化强 | 学习曲线较陡 | 复杂、生产级可控 Agent |
| CrewAI | CrewAI | 角色分工清晰、易上手 | 灵活性稍弱 | 业务流程自动化、多角色协作 |
| AutoGen | AutoGen | 多 Agent 对话能力强 | 配置复杂,调试难度高 | 研究型、动态多 Agent |
| LlamaIndex Workflows | LlamaIndex 工作流 | 与 RAG 深度集成 | Agent 能力相对较弱 | RAG 增强型 Agent |
| LangChain | LangChain | 生态最完善、组件丰富 | 抽象层过多,生产性能易出问题 | 快速原型 |
| Semantic Kernel | Semantic Kernel | .NET 支持好,企业集成佳 | 社区相对较小 | 企业级 .NET 项目 |
14. 垂直行业常用术语
| English Term | 中文翻译 | 所属行业 | 工程解释(方案评审重点) |
|---|
| HIPAA | HIPAA | 医疗 | 美国医疗数据隐私合规 |
| Medical LLM / Clinical LLM | 医疗大模型 | 医疗 | 专为临床、病历设计的 LLM |
| DICOM | DICOM | 医疗影像 | 医学图像标准格式 |
| RegTech | 监管科技 | 金融 | AI 辅助金融合规 |
| Fraud Detection | 欺诈检测 | 金融 | 实时交易反欺诈 |
| KYC / AML | KYC / AML | 金融 | 客户身份验证 / 反洗钱 |
| ESG Scoring | ESG 评分 | 金融 | 环境、社会、治理评估 |
| Legal LLM / Contract Review | 法律大模型 / 合同审查 | 法律 | 合同风险识别 |
| eDiscovery | 电子取证 | 法律 | 电子文档检索分析 |
| Predictive Maintenance | 预测性维护 | 工业 | 设备故障预测 |
| Digital Twin | 数字孪生 | 工业 | 物理实体实时数字映射 |
| Domain-Specific Model | 垂直领域模型 | 多行业 | 针对特定行业微调的模型 |
工程方案评审 Checklist(推荐)
- 模型选型(闭源 vs 开源、上下文窗口、量化策略)
- 知识注入方式(RAG 分块策略、Embedding 模型、Agent 编排)
- 性能与成本(Latency、Throughput、推理引擎、每百万 Token 成本)
- 安全合规(Guardrails、Red Teaming、行业法规如 HIPAA)
- 垂直领域适配(是否需要 Domain-Specific Fine-Tuning)
- 运维计划(漂移检测、可观测性、A/B 测试)