跳到主要内容

上线安全检查清单

本清单用于 Agent 系统进入生产前的安全验收。它不是一次性文档,而应纳入发布门禁、灰度检查和定期复评。

核对日期:2026-05-09。

7.6 上线后 30 天复盘

复盘项判断
安全指标注入、外泄、越权、审批绕过是否出现趋势
业务指标成功率、人工接管率、用户投诉是否符合预期
成本指标token、工具、检索、trace 存储是否超预算
运维指标告警是否可操作,值班是否能快速定位 run
治理指标变更是否都经过评审,豁免是否过期清理
回归集线上问题是否沉淀为离线评测用例

30 天复盘后应更新风险台账、工具 allowlist、评测集和事故 Runbook。 如果复盘发现指标无法解释,优先补审计字段,而不是继续扩大用户范围。 如果发现高风险误放行,应立即降级为只读或审批模式。 如果成本异常来自失败重试,应先修复终止条件和幂等策略。 如果用户投诉集中在错误自动化动作,应暂停对应写工具并补人工确认。

1. 使用方式

  • 每个 Agent、重大工具、MCP Server、数据源和外部发送能力上线前都应检查。
  • 对高风险项必须有证据链接:评测报告、策略配置、日志样本、审批记录或风险接受单。
  • 标记为“阻断”的问题应在修复前禁止生产上线。

2. 检查清单

类别检查项通过标准风险
用途边界是否写清 Agent 做什么、不做什么README、产品说明或策略中明确边界阻断
数据清单是否列出输入、输出、RAG、工具返回、日志、缓存和记忆有数据分类和 owner阻断
指令隔离外部内容是否作为不可信数据处理上下文模板区分系统指令与不可信内容阻断
Prompt Injection是否有直接、间接、多跳、工具返回注入评测评测通过并纳入回归集阻断
数据外泄是否扫描最终输出、工具参数、日志和缓存DLP 策略覆盖关键通道阻断
权限最小化工具和凭证是否按最小 scope 配置无长期超级凭证阻断
工具分级工具是否标注只读、低风险写、高风险写、管理操作工具注册表完整阻断
人类审批高风险动作是否触发审批外发、删除、交易、权限变更有审批阻断
沙箱执行代码、Shell、浏览器、文件处理是否隔离文件、网络、资源、凭证边界明确阻断
MCP 安全MCP Server 是否 allowlist、授权和工具快照审查不自动信任未知 Server阻断
审计日志是否能按 run_id 还原关键链路身份、工具、审批、策略版本可查阻断
日志脱敏是否避免明文 secret、PII、完整客户数据落日志抽样检查通过阻断
供应商模型、插件、工具供应商是否完成安全和数据条款评估有评估记录
灰度是否限制首批用户、工具和数据范围有灰度计划和回滚方式
监控告警是否监控注入、DLP、越权、异常工具序列和成本告警已接入值班或工单
应急是否能禁用工具、撤销凭证、回滚 Prompt 和策略有演练或操作手册
合规是否完成风险分级、隐私和业务 owner 确认有记录或风险接受

3. 最低阻断标准

以下任一项未完成,不建议上线:

  • Agent 能访问敏感数据,但没有数据分类、权限过滤和日志脱敏。
  • 存在写入、删除、外发、交易或权限变更工具,但没有审批和审计。
  • 代码执行或浏览器自动化没有沙箱。
  • MCP Server 或第三方工具未经审查直接接入生产。
  • 没有 prompt injection 和 data exfiltration 回归测试。
  • 无法在事故后通过 run_id 重建执行链路。
  • 使用长期高权限凭证且无法快速撤销。

4. 验收记录模板

agent_release:
name: "customer-support-agent"
version: "2026.05.09"
owner: "team-ai-platform"
risk_level: "high"
data_classes: ["internal", "confidential", "pii"]
tools:
- name: "read_customer_summary"
risk: "medium"
- name: "send_email"
risk: "high"
approval_required: true
evals:
prompt_injection: "passed"
data_exfiltration: "passed"
tool_poisoning: "passed"
permission_boundary: "passed"
audit:
run_id_traceable: true
log_redaction_checked: true
approval:
security_owner: "approved"
privacy_owner: "approved"
business_owner: "approved"

5. 上线后复评

上线后至少在以下事件发生时复评:

  • 模型版本、Prompt、工具 schema 或 MCP Server 发生重大变更。
  • 新增敏感数据源、外部发送通道或写入工具。
  • 用户范围从内部扩大到客户或公众。
  • 出现越权、外泄、审批绕过、异常成本或用户投诉。
  • 供应商数据政策、合规要求或业务流程变化。

6. 权威资料

7. 二次精修:决策级上线门禁

7.1 Go / No-Go 表

类别Go 条件No-Go 条件
数据数据分类完成,检索 ACL 和脱敏通过抽检高敏数据可无权限进入上下文
工具工具风险分级、scope、schema 审查、审批策略完成写工具共用超级 token
模型与 Promptprompt 版本化,安全回归集通过只靠自然语言承诺防注入
RAG文档来源、权限、更新时间、引用可追溯低可信文档可直接驱动高风险工具
MCP/插件server allowlist、认证授权、版本锁定自动信任动态发现工具
沙箱文件、网络、进程、资源限制验证不可信代码可访问宿主文件或内网
审批高风险动作审批和执行一致性通过审批后参数可被替换
审计run、trace、policy、approval、tool call 可关联事故后无法回放
运维限流、告警、回滚、禁用工具 runbook 已演练异常只能人工查日志

7.2 上线前红队最小集

minimum_red_team:
prompt_injection:
- direct_system_prompt_leak
- indirect_web_instruction_to_email
- tool_return_instruction_escalation
data_exfiltration:
- pii_to_external_email
- secret_to_log
- cross_tenant_rag
tool_abuse:
- unauthorized_delete
- external_webhook_post
- approval_parameter_swap
sandbox:
- read_host_file
- network_scan
- package_install_from_unknown_source
governance:
- policy_version_replay
- audit_log_redaction

7.3 灰度策略

阶段开放范围工具权限退出条件
内部只读安全/工程/业务 owner只读、无外发任务成功率和审计完整性达标
内部低风险写小范围业务用户低风险写,审批开启无越权、无敏感外泄、可回滚
受控外部少量客户或低风险业务外发和写操作强审批安全指标稳定,投诉可处理
全量生产目标用户群按风险分级开放监控和事故响应持续有效

7.4 事故响应检查

  • 能在 5 分钟内禁用单个工具、MCP Server 或 Agent 配置。
  • 能撤销 Agent 凭证并确认旧任务不再继续执行。
  • 能按 run_id 找到用户、prompt 版本、模型、工具参数、审批记录和策略版本。
  • 能导出受影响对象清单,支持通知、回滚、补偿和合规报告。
  • 能把事故用例加入回归评测集,防止同类问题复发。

7.5 最终签字项

签字人必看材料
业务 owner场景范围、人工兜底、用户影响
工程 owner架构、工具网关、回滚和 SLO
安全 owner威胁模型、红队、权限和沙箱
数据 owner数据分类、保留、脱敏和跨境
运维 owner监控、告警、Runbook、值班

核对日期:2026-05-09。