安全与治理

本目录面向准备把 Agent 接入真实数据、真实工具和真实业务流程的工程团队。重点不是泛泛提醒“注意安全”，而是把提示注入（Prompt Injection）、数据外泄（Data Exfiltration）、工具投毒（Tool Poisoning）、最小权限、人类审批、沙箱执行、审计日志和企业合规落到可实现、可评测、可审计的工程控制上。

核对日期：2026-05-09。涉及 OWASP LLM Top 10 2025、NIST AI RMF、MCP、OpenAI、Anthropic 和云厂商安全资料的内容已联网核对。

1. 阅读路径

顺序	文件	解决的问题
1	Agent安全总览	Agent 安全边界、威胁模型和纵深防御架构。
2	Prompt-Injection	外部内容如何劫持模型指令，以及如何隔离和检测。
3	Data-Exfiltration	敏感数据如何经模型、工具、日志和连接器泄露。
4	Tool-Poisoning	恶意工具描述、schema、返回值和 MCP Server 如何污染 Agent 决策。
5	权限最小化	工具、数据、会话、租户和人类角色如何做最小权限。
6	沙箱执行	代码执行、浏览器自动化、文件系统和网络访问如何隔离。
7	人类审批	高风险动作如何进入 Human-in-the-loop 审批流程。
8	审计日志	Agent 轨迹、工具调用和审批证据如何记录、检索和回放。
9	企业合规	AI RMF、ISO/IEC 42001、EU AI Act、隐私和供应商治理如何落地。
10	上线安全检查清单	上线前逐项检查安全、权限、日志、评测和应急预案。

2. 安全基线

生产 Agent 至少需要满足以下基线：

维度	最低要求
指令隔离	系统指令、开发者指令、用户输入、检索内容和工具返回必须分层处理，不能把不可信内容拼接成同等优先级指令。
工具权限	读写工具分离；高风险工具默认禁用或需要审批；工具凭证短期化、可撤销、按租户和作用域隔离。
数据保护	输入、上下文、检索片段、工具返回、日志、trace、缓存都纳入数据分类和脱敏策略。
运行隔离	代码执行、浏览器、文件、Shell、网络访问必须在沙箱中运行，并设置 CPU、内存、时间、网络和文件权限边界。
审批机制	对转账、发邮件、删数据、改权限、发布内容、调用外部系统等不可逆或高影响动作启用人类审批。
审计与回放	每次 Agent 执行都有 `run_id`，记录模型输入输出摘要、工具调用、权限决策、审批人、策略版本和结果。
评测演练	建立提示注入、越权、数据外泄、工具投毒、沙箱逃逸和审批绕过的回归用例。

3. 推荐防御架构

4. 与其他目录的边界

工具调用、MCP、tool schema 的机制参考工具调用体系。
状态、会话、队列、回放和部署架构参考 Agent工程化。
评测集、红队和回归测试参考 ../10-Agent评测体系/。
观测、告警、事故复盘参考 ../11-可观测性与运维/。

本目录只展开安全、权限和治理控制，不重复其他目录的完整工程细节。

5. 权威资料

OWASP Top 10 for LLM Applications 2025: https://owasp.org/www-project-top-10-for-large-language-model-applications/
OWASP GenAI Security Project: https://genai.owasp.org/
NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
NIST AI 600-1 Generative AI Profile: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
MCP Security Best Practices: https://modelcontextprotocol.io/docs/tutorials/security/security_best_practices
MCP Specification 2025-11-25: https://modelcontextprotocol.io/specification/2025-11-25
OpenAI Platform Safety Best Practices: https://platform.openai.com/docs/guides/safety-best-practices
Anthropic Tool Use docs: https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/implement-tool-use
AWS Prescriptive Guidance for Agentic AI Security: https://docs.aws.amazon.com/prescriptive-guidance/latest/agentic-ai-security/introduction.html
Microsoft Azure OpenAI security baseline: https://learn.microsoft.com/en-us/security/benchmark/azure/baselines/azure-openai-security-baseline
Google Secure AI Framework: https://saif.google/

1. 阅读路径​

2. 安全基线​

3. 推荐防御架构​

4. 与其他目录的边界​

5. 权威资料​

1. 阅读路径

2. 安全基线

3. 推荐防御架构

4. 与其他目录的边界

5. 权威资料