跳到主要内容

安全与治理

本目录面向准备把 Agent 接入真实数据、真实工具和真实业务流程的工程团队。重点不是泛泛提醒“注意安全”,而是把提示注入(Prompt Injection)、数据外泄(Data Exfiltration)、工具投毒(Tool Poisoning)、最小权限、人类审批、沙箱执行、审计日志和企业合规落到可实现、可评测、可审计的工程控制上。

核对日期:2026-05-09。涉及 OWASP LLM Top 10 2025、NIST AI RMF、MCP、OpenAI、Anthropic 和云厂商安全资料的内容已联网核对。

1. 阅读路径

顺序文件解决的问题
1Agent安全总览Agent 安全边界、威胁模型和纵深防御架构。
2Prompt-Injection外部内容如何劫持模型指令,以及如何隔离和检测。
3Data-Exfiltration敏感数据如何经模型、工具、日志和连接器泄露。
4Tool-Poisoning恶意工具描述、schema、返回值和 MCP Server 如何污染 Agent 决策。
5权限最小化工具、数据、会话、租户和人类角色如何做最小权限。
6沙箱执行代码执行、浏览器自动化、文件系统和网络访问如何隔离。
7人类审批高风险动作如何进入 Human-in-the-loop 审批流程。
8审计日志Agent 轨迹、工具调用和审批证据如何记录、检索和回放。
9企业合规AI RMF、ISO/IEC 42001、EU AI Act、隐私和供应商治理如何落地。
10上线安全检查清单上线前逐项检查安全、权限、日志、评测和应急预案。

2. 安全基线

生产 Agent 至少需要满足以下基线:

维度最低要求
指令隔离系统指令、开发者指令、用户输入、检索内容和工具返回必须分层处理,不能把不可信内容拼接成同等优先级指令。
工具权限读写工具分离;高风险工具默认禁用或需要审批;工具凭证短期化、可撤销、按租户和作用域隔离。
数据保护输入、上下文、检索片段、工具返回、日志、trace、缓存都纳入数据分类和脱敏策略。
运行隔离代码执行、浏览器、文件、Shell、网络访问必须在沙箱中运行,并设置 CPU、内存、时间、网络和文件权限边界。
审批机制对转账、发邮件、删数据、改权限、发布内容、调用外部系统等不可逆或高影响动作启用人类审批。
审计与回放每次 Agent 执行都有 run_id,记录模型输入输出摘要、工具调用、权限决策、审批人、策略版本和结果。
评测演练建立提示注入、越权、数据外泄、工具投毒、沙箱逃逸和审批绕过的回归用例。

3. 推荐防御架构

4. 与其他目录的边界

  • 工具调用、MCP、tool schema 的机制参考 工具调用体系
  • 状态、会话、队列、回放和部署架构参考 Agent工程化
  • 评测集、红队和回归测试参考 ../10-Agent评测体系/
  • 观测、告警、事故复盘参考 ../11-可观测性与运维/

本目录只展开安全、权限和治理控制,不重复其他目录的完整工程细节。

5. 权威资料