AI全景认知
核对日期:2026-05-13。
1. 阶段目标
本阶段的目标不是让你背术语,而是建立一张能指导后续学习和工程判断的 AI 地图。
学完本阶段,你应该能做到:
- 分清 AI、机器学习、深度学习、生成式 AI、LLM、RAG、Agent、Workflow 和 Copilot 的关系。
- 看到一个业务需求,能初步判断应该用规则系统、传统机器学习、LLM、RAG、Workflow 还是 Agent。
- 理解 AI 系统为什么必须同时考虑数据、模型、评测、安全、成本、延迟和产品体验。
- 避免把“调用模型 API”误解为“完成 AI 系统建设”。
本阶段的核心产出是:
- 一张自己的 AI 技术地图。
- 一份 AI 场景选型报告。
- 一组用于判断“该不该用 Agent”的问题清单。
2. 学习前置条件
本阶段不要求数学、算法或机器学习基础,只要求你具备基本工程常识:
- 能理解软件系统有输入、处理、输出和异常。
- 能理解数据、接口、权限、日志、用户体验这些工程概念。
- 能读懂简单流程图、表格和案例分析。
如果你已经是工程师,本阶段要重点训练的是“技术分层判断力”,不是编码。
3. 核心知识地图
这张图里最重要的是层次关系:LLM 是能力组件,RAG 是知识接入模式,Agent 是任务执行架构,生产 AI 系统还需要评测、安全、观测和治理。
4. 详细讲义
4.1 AI 是能力谱系,不是单一技术
AI 可以广义理解为:让机器完成过去需要人类智能参与的任务。它包括规则推理、机器学习、深度学习、生成式 AI、机器人、智能体等多个方向。
工程上更有用的定义是:AI 系统会在某些环节引入概率模型或学习模型,处理规则难以穷举、输入不完全结构化、判断边界模糊的问题。
这也意味着 AI 系统天然带有不确定性。传统函数的输出通常由代码决定,而 AI 输出由模型、数据、上下文、采样参数和系统约束共同决定。上线时不能只问“能不能回答”,还要问“错了怎么办、如何发现、如何回滚”。
4.2 规则系统仍然重要
规则系统是确定性的,适合规则明确、风险高、流程固定的场景。例如:
- 金额超过阈值必须审批。
- 用户未登录不能访问订单。
- 库存不足不能下单。
- 生产删除操作必须二次确认。
AI 不应该替代这些硬规则。更合理的模式是:AI 处理非结构化理解、草稿生成、候选建议;规则系统处理权限、校验、执行和审计。
4.3 机器学习解决“从数据中学习规律”
传统机器学习适合结构化数据上的预测、分类、排序和聚类:
- 用户是否会流失。
- 订单是否有风险。
- 销售额可能是多少。
- 用户可以分成哪些群体。
它依赖历史数据、特征工程和评测指标。它不擅长开放式文本推理和复杂多步任务,但在很多结构化业务问题上比 LLM 更便宜、更稳定、更可解释。
4.4 深度学习解决“复杂表示学习”
深度学习通过多层神经网络自动学习复杂数据的表示,适合图像、语音、文本、代码等高维数据。
它是现代 LLM 的基础。理解深度学习不一定要立刻会训练大模型,但至少要知道:
- 模型通过损失函数和梯度优化学习。
- 数据分布决定模型能力边界。
- 训练效果需要验证集和测试集评估。
- 模型不是规则库,而是从统计模式中生成输出。
4.5 LLM 是语言和代码上的通用接口
大语言模型的核心价值是把自然语言、代码和结构化指令变成统一接口。它能做理解、生成、总结、改写、抽取、解释、工具参数生成和计划草稿。
但 LLM 不是数据库,也不是权限系统。它可能产生幻觉、遗漏上下文、误解工具、输出格式错误、过度自信。因此 LLM 应用必须结合:
- 结构化输出。
- 校验器。
- 检索证据。
- 工具权限。
- 评测集。
- 审计日志。
4.6 RAG 让模型使用外部知识
RAG 的基本思路是:先从外部知识库检索相关内容,再把证据放进上下文,让模型基于证据回答。
RAG 适合:
- 企业制度问答。
- 技术文档问答。
- 合同条款检索。
- 产品知识库助手。
RAG 不自动解决:
- 文档是否可信。
- 用户是否有权限看文档。
- 检索是否召回关键证据。
- 引用是否真正支持答案。
- 资料是否过期。
4.7 Workflow 和 Agent 的边界
Workflow 是由代码预定义路径,模型只在某些节点参与。Agent 是由模型根据目标和观察结果动态选择下一步。
Workflow: 代码决定流程,模型完成局部任务
Agent: 模型参与流程控制,代码提供工具、边界和退出条件
如果任务路径固定、风险高、规则清晰,优先 Workflow。如果任务目标明确但步骤不固定,需要探索、调用工具、根据反馈调整,才考虑 Agent。
4.8 Copilot、Chatbot、RAG、Agent 的差异
| 形态 | 用户输入 | 系统能力 | 典型风险 |
|---|---|---|---|
| Chatbot | 问题或对话 | 回答、解释、生成 | 幻觉、无法行动 |
| Copilot | 人正在做的工作上下文 | 建议、补全、草稿 | 人过度信任 |
| RAG | 问题 + 外部知识库 | 检索证据并回答 | 检索失败、引用不实 |
| Workflow + LLM | 固定流程中的模型节点 | 分类、抽取、生成 | 流程外异常处理不足 |
| Agent | 目标和约束 | 动态选择工具推进任务 | 越权、循环、成本失控 |
4.9 生产 AI 系统的七个面
一个能上线的 AI 系统至少有七个面:
| 面 | 要回答的问题 |
|---|---|
| 任务 | 它到底帮谁完成什么任务? |
| 数据 | 输入、知识、用户数据从哪里来,是否可信? |
| 模型 | 用什么模型,为什么,失败时如何降级? |
| 工具 | 它能调用哪些系统,权限是什么? |
| 评测 | 怎么证明它比基线好,错在哪里? |
| 安全 | 如何防注入、泄漏、越权、误操作? |
| 运营 | 成本、延迟、监控、灰度和回滚怎么做? |
5. 关键概念表
| 概念 | 核心问题 | 典型例子 | 适用场景 | 不适用场景 |
|---|---|---|---|---|
| 规则系统 | 能否用明确规则处理 | 审批流、权限校验 | 路径固定、风险高 | 输入模糊、规则难穷举 |
| 机器学习 | 能否从历史数据学习模式 | 风险评分、流失预测 | 结构化预测、分类、排序 | 开放式推理和生成 |
| 深度学习 | 能否学习复杂表示 | 图像识别、语音识别 | 高维数据、非线性模式 | 数据少、解释要求极高 |
| LLM | 能否理解和生成语言 | 总结、问答、代码生成 | 文本、代码、自然语言接口 | 需要强确定性和权限控制的执行 |
| Prompt | 如何描述任务和约束 | 抽取、改写、分类指令 | 低风险生成和模型行为约束 | 替代业务规则和系统安全 |
| RAG | 如何接入外部知识 | 企业知识库问答 | 知识密集、需要引用 | 权限混乱、证据不可验证 |
| Workflow | 如何稳定执行固定流程 | 工单处理、审批流 | 流程清晰、可编码 | 步骤高度不确定 |
| Agent | 如何动态推进目标 | 研究助手、代码 Agent | 目标明确、步骤不固定 | 高风险不可回滚且无审批 |
6. 工程案例
6.1 客服 FAQ
低风险 FAQ 可以使用 RAG:检索产品文档、制度、历史问题,生成带引用回答。
但退款、赔付、解约、账号封禁这类动作不应直接交给模型执行。推荐架构:
用户问题 -> LLM 分类 -> RAG 查政策 -> Workflow 校验规则 -> 生成处理建议 -> 人工/规则确认 -> 执行动作
判断重点:
- 回答类任务可以让模型生成。
- 资金和权益变更必须由规则和审批控制。
- 用户看到的答案要能追溯到政策证据。
6.2 代码助手
代码补全是 Copilot;能读取仓库、搜索调用链、运行测试、定位错误、提交补丁的系统才接近 Agent。
但代码 Agent 的权限必须分层:
| 能力 | 风险 | 默认策略 |
|---|---|---|
| 读文件 | 低到中 | 允许,但排除密钥文件 |
| 搜索代码 | 低 | 允许 |
| 运行测试 | 中 | 允许,限制命令范围 |
| 修改代码 | 中 | 需要 diff 审查 |
| 推送/部署 | 高 | 人工审批 |
6.3 数据预测
“预测下个月销量”通常不是 LLM 问答问题,而是时间序列或机器学习问题。LLM 可以辅助解释结果、生成报告,但不应该凭语言模型直接猜数。
合理链路:
历史数据 -> 清洗 -> 特征/时间序列模型 -> 预测 -> 误差评估 -> LLM 生成解释报告
6.4 企业知识库
企业知识库不是把所有文档丢进向量库就结束。关键问题是:
- 文档是否被正确切分。
- 用户是否有权限访问。
- 检索是否能召回关键段落。
- 回答是否引用正确证据。
- 文档更新后索引是否同步。
6.5 运维助手
运维场景可以让 AI 帮忙总结日志、分析告警、提出排查路径。但涉及重启服务、修改配置、扩缩容、执行数据库变更时,必须有审批、审计和回滚。
7. 常见误区与反模式
| 反模式 | 表现 | 问题 | 修正 |
|---|---|---|---|
| 所有需求都做聊天框 | 产品只有一个输入框 | 用户任务没有被结构化 | 围绕任务流设计入口和输出 |
| Prompt 当架构 | 所有规则写在提示词里 | 规则不可审计、不可强制 | 规则放代码和策略层 |
| 模型榜单选型 | 只看排行榜第一 | 业务指标可能不匹配 | 做任务级评测 |
| RAG 万能论 | 文档进向量库就上线 | 检索、权限、引用都可能失败 | 做 RAG eval 和权限过滤 |
| Agent 崇拜 | 一开始设计多 Agent | 成本、调试和责任边界混乱 | 先 Workflow,再局部 Agent |
| Demo 即生产 | 几个样例跑通就上线 | 边界样例和失败模式未覆盖 | 建立评测集和灰度 |
8. 阶段练习
8.1 技术地图练习
画一张自己的 AI 技术地图,必须包含:
- AI、ML、DL、LLM、RAG、Agent 的关系。
- 每层解决的问题。
- 每层不解决的问题。
8.2 产品拆解练习
选择 5 个 AI 产品,按下表拆解:
| 产品 | 表面功能 | 可能的技术层 | 是否需要 RAG | 是否需要 Agent | 最大风险 |
|---|
8.3 场景选型练习
为以下场景选择技术路线:
| 场景 | 推荐路线 | 判断理由 |
|---|---|---|
| 固定金额审批 | 规则 / Workflow | 规则清晰,风险高 |
| 企业制度问答 | RAG | 知识密集,需要引用 |
| 用户流失预测 | 机器学习 | 结构化历史数据预测 |
| 代码库 bug 定位 | Agent | 需要读文件、跑测试、根据反馈调整 |
| 会议纪要总结 | LLM 应用 | 文本生成,风险可控 |
| 生产数据库变更 | Workflow + 人工审批 | 高风险,不应自主执行 |
8.4 反模式改写练习
把“我要做一个智能客服 Agent,能自动回答和处理所有问题”改写成工程可执行需求:
- 哪些只回答。
- 哪些需要 RAG。
- 哪些进入 Workflow。
- 哪些必须人工审批。
- 哪些不能做。
9. 项目任务
完成《AI 场景选型报告》。
9.1 报告结构
# AI 场景选型报告
## 场景 1:场景名称
### 当前流程
### 用户痛点
### 推荐技术路线
### 为什么不用其他路线
### 关键风险
### 验收方式
### 后续演进路径
9.2 评分标准
| 维度 | 分值 | 标准 |
|---|---|---|
| 场景描述清晰 | 20 | 能说清用户、任务、输入、输出 |
| 技术路线合理 | 25 | 能区分规则、ML、RAG、Workflow、Agent |
| 边界和风险 | 25 | 能说明不适用场景和安全边界 |
| 验收方式 | 20 | 有可验证指标或样例 |
| 表达质量 | 10 | 结构清晰、无空泛结论 |
10. 验收题
- AI 和自动化的区别是什么?为什么这个区别影响系统设计?
- 机器学习和深度学习的关系是什么?深度学习一定更好吗?
- 为什么 LLM 不等于知识库?
- RAG 解决什么问题,不解决什么问题?
- Workflow 和 Agent 的核心差异是什么?
- 什么场景下不应该使用 Agent?
- Prompt 为什么不能替代权限控制?
- 一个 AI 系统上线前至少要考虑哪些非模型因素?
- 为什么“模型能回答”不等于“系统能生产使用”?
- 如果一个需求路径固定但输入是自然语言,应该如何设计?
11. 延伸阅读
基础认知
- Stanford AI Index: https://aiindex.stanford.edu/
- Google People + AI Guidebook: https://pair.withgoogle.com/guidebook/
- NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
LLM 与 Agent
- OpenAI Docs: https://platform.openai.com/docs
- Anthropic Building Effective Agents: https://www.anthropic.com/engineering/building-effective-agents
- Model Context Protocol: https://modelcontextprotocol.io/docs
安全与治理
- OWASP Top 10 for LLM Applications: https://owasp.org/www-project-top-10-for-large-language-model-applications/
12. 本阶段总结
本阶段的关键能力是“分层判断”:AI 不是一个技术点,而是一组能力层。规则系统、机器学习、深度学习、LLM、RAG、Workflow 和 Agent 都有自己的适用边界。
进入下一阶段前,你应该能完成一个基本判断:面对一个真实需求,不先问“用哪个模型”,而是先问“这个任务的输入、输出、风险、验证方式和执行边界是什么”。
下一阶段会补齐数学、编程和数据基础,让你理解后续机器学习、embedding、RAG 和模型评测背后的共同语言。