上线安全检查清单

本清单用于 Agent 系统进入生产前的安全验收。它不是一次性文档，而应纳入发布门禁、灰度检查和定期复评。

核对日期：2026-05-09。

7.6 上线后 30 天复盘

复盘项	判断
安全指标	注入、外泄、越权、审批绕过是否出现趋势
业务指标	成功率、人工接管率、用户投诉是否符合预期
成本指标	token、工具、检索、trace 存储是否超预算
运维指标	告警是否可操作，值班是否能快速定位 run
治理指标	变更是否都经过评审，豁免是否过期清理
回归集	线上问题是否沉淀为离线评测用例

30 天复盘后应更新风险台账、工具 allowlist、评测集和事故 Runbook。如果复盘发现指标无法解释，优先补审计字段，而不是继续扩大用户范围。如果发现高风险误放行，应立即降级为只读或审批模式。如果成本异常来自失败重试，应先修复终止条件和幂等策略。如果用户投诉集中在错误自动化动作，应暂停对应写工具并补人工确认。

1. 使用方式

每个 Agent、重大工具、MCP Server、数据源和外部发送能力上线前都应检查。
对高风险项必须有证据链接：评测报告、策略配置、日志样本、审批记录或风险接受单。
标记为“阻断”的问题应在修复前禁止生产上线。

2. 检查清单

类别	检查项	通过标准	风险
用途边界	是否写清 Agent 做什么、不做什么	README、产品说明或策略中明确边界	阻断
数据清单	是否列出输入、输出、RAG、工具返回、日志、缓存和记忆	有数据分类和 owner	阻断
指令隔离	外部内容是否作为不可信数据处理	上下文模板区分系统指令与不可信内容	阻断
Prompt Injection	是否有直接、间接、多跳、工具返回注入评测	评测通过并纳入回归集	阻断
数据外泄	是否扫描最终输出、工具参数、日志和缓存	DLP 策略覆盖关键通道	阻断
权限最小化	工具和凭证是否按最小 scope 配置	无长期超级凭证	阻断
工具分级	工具是否标注只读、低风险写、高风险写、管理操作	工具注册表完整	阻断
人类审批	高风险动作是否触发审批	外发、删除、交易、权限变更有审批	阻断
沙箱执行	代码、Shell、浏览器、文件处理是否隔离	文件、网络、资源、凭证边界明确	阻断
MCP 安全	MCP Server 是否 allowlist、授权和工具快照审查	不自动信任未知 Server	阻断
审计日志	是否能按 run_id 还原关键链路	身份、工具、审批、策略版本可查	阻断
日志脱敏	是否避免明文 secret、PII、完整客户数据落日志	抽样检查通过	阻断
供应商	模型、插件、工具供应商是否完成安全和数据条款评估	有评估记录	高
灰度	是否限制首批用户、工具和数据范围	有灰度计划和回滚方式	高
监控告警	是否监控注入、DLP、越权、异常工具序列和成本	告警已接入值班或工单	高
应急	是否能禁用工具、撤销凭证、回滚 Prompt 和策略	有演练或操作手册	高
合规	是否完成风险分级、隐私和业务 owner 确认	有记录或风险接受	高

3. 最低阻断标准

以下任一项未完成，不建议上线：

Agent 能访问敏感数据，但没有数据分类、权限过滤和日志脱敏。
存在写入、删除、外发、交易或权限变更工具，但没有审批和审计。
代码执行或浏览器自动化没有沙箱。
MCP Server 或第三方工具未经审查直接接入生产。
没有 prompt injection 和 data exfiltration 回归测试。
无法在事故后通过 run_id 重建执行链路。
使用长期高权限凭证且无法快速撤销。

4. 验收记录模板

agent_release:
  name: "customer-support-agent"
  version: "2026.05.09"
  owner: "team-ai-platform"
  risk_level: "high"
  data_classes: ["internal", "confidential", "pii"]
  tools:
    - name: "read_customer_summary"
      risk: "medium"
    - name: "send_email"
      risk: "high"
      approval_required: true
  evals:
    prompt_injection: "passed"
    data_exfiltration: "passed"
    tool_poisoning: "passed"
    permission_boundary: "passed"
  audit:
    run_id_traceable: true
    log_redaction_checked: true
  approval:
    security_owner: "approved"
    privacy_owner: "approved"
    business_owner: "approved"

5. 上线后复评

上线后至少在以下事件发生时复评：

模型版本、Prompt、工具 schema 或 MCP Server 发生重大变更。
新增敏感数据源、外部发送通道或写入工具。
用户范围从内部扩大到客户或公众。
出现越权、外泄、审批绕过、异常成本或用户投诉。
供应商数据政策、合规要求或业务流程变化。

6. 权威资料

OWASP Top 10 for LLM Applications 2025: https://owasp.org/www-project-top-10-for-large-language-model-applications/
NIST AI RMF: https://www.nist.gov/itl/ai-risk-management-framework
NIST AI 600-1 Generative AI Profile: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
MCP Security Best Practices: https://modelcontextprotocol.io/docs/tutorials/security/security_best_practices
OpenAI Safety Best Practices: https://platform.openai.com/docs/guides/safety-best-practices
AWS Agentic AI Security Controls: https://docs.aws.amazon.com/prescriptive-guidance/latest/agentic-ai-security/introduction.html
Google Secure AI Framework: https://saif.google/

7. 二次精修：决策级上线门禁

7.1 Go / No-Go 表

类别	Go 条件	No-Go 条件
数据	数据分类完成，检索 ACL 和脱敏通过抽检	高敏数据可无权限进入上下文
工具	工具风险分级、scope、schema 审查、审批策略完成	写工具共用超级 token
模型与 Prompt	prompt 版本化，安全回归集通过	只靠自然语言承诺防注入
RAG	文档来源、权限、更新时间、引用可追溯	低可信文档可直接驱动高风险工具
MCP/插件	server allowlist、认证授权、版本锁定	自动信任动态发现工具
沙箱	文件、网络、进程、资源限制验证	不可信代码可访问宿主文件或内网
审批	高风险动作审批和执行一致性通过	审批后参数可被替换
审计	run、trace、policy、approval、tool call 可关联	事故后无法回放
运维	限流、告警、回滚、禁用工具 runbook 已演练	异常只能人工查日志

7.2 上线前红队最小集

minimum_red_team:
  prompt_injection:
    - direct_system_prompt_leak
    - indirect_web_instruction_to_email
    - tool_return_instruction_escalation
  data_exfiltration:
    - pii_to_external_email
    - secret_to_log
    - cross_tenant_rag
  tool_abuse:
    - unauthorized_delete
    - external_webhook_post
    - approval_parameter_swap
  sandbox:
    - read_host_file
    - network_scan
    - package_install_from_unknown_source
  governance:
    - policy_version_replay
    - audit_log_redaction

7.3 灰度策略

阶段	开放范围	工具权限	退出条件
内部只读	安全/工程/业务 owner	只读、无外发	任务成功率和审计完整性达标
内部低风险写	小范围业务用户	低风险写，审批开启	无越权、无敏感外泄、可回滚
受控外部	少量客户或低风险业务	外发和写操作强审批	安全指标稳定，投诉可处理
全量生产	目标用户群	按风险分级开放	监控和事故响应持续有效

7.4 事故响应检查

能在 5 分钟内禁用单个工具、MCP Server 或 Agent 配置。
能撤销 Agent 凭证并确认旧任务不再继续执行。
能按 run_id 找到用户、prompt 版本、模型、工具参数、审批记录和策略版本。
能导出受影响对象清单，支持通知、回滚、补偿和合规报告。
能把事故用例加入回归评测集，防止同类问题复发。

7.5 最终签字项

签字人	必看材料
业务 owner	场景范围、人工兜底、用户影响
工程 owner	架构、工具网关、回滚和 SLO
安全 owner	威胁模型、红队、权限和沙箱
数据 owner	数据分类、保留、脱敏和跨境
运维 owner	监控、告警、Runbook、值班

核对日期：2026-05-09。

7.6 上线后 30 天复盘​

1. 使用方式​

2. 检查清单​

3. 最低阻断标准​

4. 验收记录模板​

5. 上线后复评​

6. 权威资料​

7. 二次精修：决策级上线门禁​

7.1 Go / No-Go 表​

7.2 上线前红队最小集​

7.3 灰度策略​

7.4 事故响应检查​

7.5 最终签字项​