跳到主要内容

security-review

核对日期:2026-05-13。

1. 系统信任边界

需要明确:

  • 哪些输入来自不可信用户。
  • 哪些文档可能被污染。
  • 哪些工具具备读写或外发能力。
  • 哪些日志可能包含敏感信息。

2. 数据分类

数据类型示例风险等级处理方式
公开数据产品说明、公开文档可进入 prompt
内部数据内部流程、代码片段权限过滤、日志脱敏
敏感数据密钥、个人信息、客户数据默认不入模、不落日志

3. Prompt Injection 防护

场景风险控制方式
用户直接输入恶意指令覆盖系统规则系统指令隔离、输出校验
RAG 文档含恶意指令间接注入文档作为数据而非指令、引用隔离
工具结果包含指令工具污染上下文工具输出标注来源、限制可执行动作

4. 工具权限

工具权限级别默认行为高风险动作
search_docs只读允许
read_file只读允许受限路径读取敏感路径
run_query只读dry-run / limit大表扫描、敏感字段
send_message外发默认禁用未经确认外发
write_action写入需要审批修改生产数据

5. 人工确认

以下动作必须人工确认:

  • 外发消息。
  • 写入业务系统。
  • 执行不可逆操作。
  • 访问高敏数据。
  • 使用低置信度结果影响真实用户。

6. 日志和缓存

检查项:

  • 日志不记录密钥、token、密码。
  • 用户输入进入日志前做脱敏或摘要化。
  • 模型输出中的敏感信息不会进入公开样例。
  • 缓存按用户、权限和数据版本隔离。
  • 评测样例使用合成数据或脱敏数据。

7. 事故响应

事故发现方式立即动作后续修复
错误回答用户反馈、eval 回归标记失败样例修复 prompt / 检索 / 工具
数据泄漏日志审计、安全告警停用功能、清理日志增加脱敏和权限过滤
工具越权trace 检查关闭工具重设权限和审批
成本异常成本告警限流、降级优化上下文和缓存

8. 发布结论

选择一种结论:

  • 可灰度:风险已被控制,剩余风险可接受。
  • 仅内部演示:仍需人工保护,不对真实用户开放。
  • 不可发布:存在数据、权限或安全阻塞项。