安全与治理
本目录面向准备把 Agent 接入真实数据、真实工具和真实业务流程的工程团队。重点不是泛泛提醒“注意安全”,而是把提示注入(Prompt Injection)、数据外泄(Data Exfiltration)、工具投毒(Tool Poisoning)、最小权限、人类审批、沙箱执行、审计日志和企业合规落到可实现、可评测、可审计的工程控制上。
核对日期:2026-05-09。涉及 OWASP LLM Top 10 2025、NIST AI RMF、MCP、OpenAI、Anthropic 和云厂商安全资料的内容已联网核对。
1. 阅读路径
| 顺序 | 文件 | 解决的问题 |
|---|---|---|
| 1 | Agent安全总览 | Agent 安全边界、威胁模型和纵深防御架构。 |
| 2 | Prompt-Injection | 外部内容如何劫持模型指令,以及如何隔离和检测。 |
| 3 | Data-Exfiltration | 敏感数据如何经模型、工具、日志和连接器泄露。 |
| 4 | Tool-Poisoning | 恶意工具描述、schema、返回值和 MCP Server 如何污染 Agent 决策。 |
| 5 | 权限最小化 | 工具、数据、会话、租户和人类角色如何做最小权限。 |
| 6 | 沙箱执行 | 代码执行、浏览器自动化、文件系统和网络访问如何隔离。 |
| 7 | 人类审批 | 高风险动作如何进入 Human-in-the-loop 审批流程。 |
| 8 | 审计日志 | Agent 轨迹、工具调用和审批证据如何记录、检索和回放。 |
| 9 | 企业合规 | AI RMF、ISO/IEC 42001、EU AI Act、隐私和供应商治理如何落地。 |
| 10 | 上线安全检查清单 | 上线前逐项检查安全、权限、日志、评测和应急预案。 |
2. 安全基线
生产 Agent 至少需要满足以下基线:
| 维度 | 最低要求 |
|---|---|
| 指令隔离 | 系统指令、开发者指令、用户输入、检索内容和工具返回必须分层处理,不能把不可信内容拼接成同等优先级指令。 |
| 工具权限 | 读写工具分离;高风险工具默认禁用或需要审批;工具凭证短期化、可撤销、按租户和作用域隔离。 |
| 数据保护 | 输入、上下文、检索片段、工具返回、日志、trace、缓存都纳入数据分类和脱敏策略。 |
| 运行隔离 | 代码执行、浏览器、文件、Shell、网络访问必须在沙箱中运行,并设置 CPU、内存、时间、网络和文件权限边界。 |
| 审批机制 | 对转账、发邮件、删数据、改权限、发布内容、调用外部系统等不可逆或高影响动作启用人类审批。 |
| 审计与回放 | 每次 Agent 执行都有 run_id,记录模型输入输出摘要、工具调用、权限决策、审批人、策略版本和结果。 |
| 评测演练 | 建立提示注入、越权、数据外泄、工具投毒、沙箱逃逸和审批绕过的回归用例。 |
3. 推荐防御架构
4. 与其他目录的边界
- 工具调用、MCP、tool schema 的机制参考 工具调用体系。
- 状态、会话、队列、回放和部署架构参考 Agent工程化。
- 评测集、红队和回归测试参考
../10-Agent评测体系/。 - 观测、告警、事故复盘参考
../11-可观测性与运维/。
本目录只展开安全、权限和治理控制,不重复其他目录的完整工程细节。
5. 权威资料
- OWASP Top 10 for LLM Applications 2025: https://owasp.org/www-project-top-10-for-large-language-model-applications/
- OWASP GenAI Security Project: https://genai.owasp.org/
- NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
- NIST AI 600-1 Generative AI Profile: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
- MCP Security Best Practices: https://modelcontextprotocol.io/docs/tutorials/security/security_best_practices
- MCP Specification 2025-11-25: https://modelcontextprotocol.io/specification/2025-11-25
- OpenAI Platform Safety Best Practices: https://platform.openai.com/docs/guides/safety-best-practices
- Anthropic Tool Use docs: https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/implement-tool-use
- AWS Prescriptive Guidance for Agentic AI Security: https://docs.aws.amazon.com/prescriptive-guidance/latest/agentic-ai-security/introduction.html
- Microsoft Azure OpenAI security baseline: https://learn.microsoft.com/en-us/security/benchmark/azure/baselines/azure-openai-security-baseline
- Google Secure AI Framework: https://saif.google/