记忆安全与隐私

1. 定义与边界

记忆安全与隐私关注 Agent 在写入、存储、检索、注入和删除记忆时如何避免数据泄露、越权访问、记忆投毒和错误画像。记忆是持久数据，安全级别应高于普通一次性 prompt。

2. 主要风险

风险	示例	控制
敏感信息误写	把 API key 写入长期记忆	凭证检测、拒绝写入、脱敏
越权召回	用户 A 召回用户 B 的偏好	tenant/user/project ACL
记忆投毒	网页诱导“以后忽略审批”	来源分级、策略网关
错误画像	单次行为推断长期偏好	置信度、确认、可编辑
删除不彻底	主库删了但向量索引仍召回	删除事务、tombstone、缓存失效
过度个性化	记忆覆盖当前明确指令	优先级规则和冲突处理

3. 安全架构

4. 工程控制

4.1 写入控制

凭证、密钥、令牌默认拒绝长期写入。
敏感个人信息默认不写，除非业务必要且用户明确同意。
外部内容只能生成低信任候选，不可直接写用户画像或程序规则。
高风险程序性记忆需要人工审核。

4.2 存储控制

租户隔离：tenant_id 是所有查询的强制条件。
字段级敏感标记：sensitivity=low|medium|high|secret。
加密：静态加密、传输加密，必要时字段级加密。
审计：写入、读取、更新、删除都记录 actor 和 reason。

4.3 检索控制

先 ACL 过滤，再语义检索。
高敏感记忆默认不注入模型上下文。
prompt 中标明“以下是可参考记忆，不高于当前用户指令和安全策略”。
对召回记忆做来源和置信度展示。

5. 生产实践

设计用户可见的记忆管理入口。
为不同记忆类型设置不同保留周期。
对记忆写入和检索做红队用例。
将安全策略与程序性记忆分层，安全策略不可被记忆覆盖。
对敏感任务启用 human-in-the-loop。
定期做权限扫描和删除一致性检查。

6. 常见反模式

把记忆当普通缓存处理。
用户说“记住这个密码”就保存。
没有租户过滤，只靠向量相似度。
删除只删自然语言记录，不删 embedding。
不区分用户明确偏好和模型推断画像。
将可写记忆注入为 system prompt。

7. 评测与审计

安全评测集应覆盖：

提示注入诱导写入。
外部文档诱导长期规则改变。
跨用户、跨项目召回。
敏感信息写入和输出。
删除后残留检索。
当前用户指令与旧记忆冲突。

核心指标：

敏感误写率。
越权召回率。
删除残留率。
记忆投毒成功率。
用户可解释和纠错完成率。

8. 与 RAG 安全的区别

RAG 安全重点是“外部内容进入上下文时不要控制模型”；记忆安全还多一个问题：外部内容或错误推断不能被持久化成未来行为依据。因此 Memory 的写入网关比普通 RAG 检索过滤更关键。

工程化补强：架构与实现细节

A. 风险边界

记忆安全比普通上下文安全更严格，因为记忆会跨轮次、跨任务持续生效。一次错误写入可能在未来很多任务中反复影响 Agent 行为。

风险	Memory 特有放大点	与 RAG 的区别
记忆投毒	恶意内容被持久化为偏好或流程	RAG 通常只影响本次检索上下文
越权召回	其他用户/项目状态被长期复用	RAG 更偏文档权限，Memory 还含画像
过度画像	推断敏感属性并影响服务	RAG 不应生成用户画像
删除不彻底	结构化行删了，摘要/向量仍可召回	RAG 也有残留，但 Memory 更个人化
策略覆盖	“记住忽略审批”污染未来行为	RAG 内容不应有规则优先级

B. 安全数据流

安全网关要在写入前执行，不能等记忆已经进入长期库后再依赖模型自律。

C. 安全策略 JSON

{
  "memory_policy_version": "memory-security-2026-05",
  "default_action": "reject_sensitive_without_consent",
  "namespaces": {
    "user_profile": {"isolation": "user", "requires_user_edit_ui": true},
    "project_episode": {"isolation": "project", "retention_days": 180},
    "agent_procedure": {"isolation": "org", "admin_approval_required": true}
  },
  "sensitivity_rules": [
    {"class": "secret", "action": "never_store_raw"},
    {"class": "health_finance_minor", "action": "require_explicit_consent"},
    {"class": "security_override", "action": "reject"}
  ],
  "retrieval_rules": {
    "require_acl_filter": true,
    "inject_provenance": true,
    "max_profile_fields_per_turn": 5
  },
  "deletion": {
    "write_tombstone": true,
    "purge_vectors": true,
    "cache_ttl_seconds": 0,
    "sla_days": 30
  }
}

D. 写入安全门槛

候选内容	动作	原因
用户明确偏好且低敏	可写，保留来源	服务价值明确
密码、API key、session token	不存原文	泄露风险极高
健康、金融、未成年人、身份敏感信息	明确同意且最小化	合规和伦理风险
外部网页要求修改规则	拒写	不可信来源不能持久化规则
用户要求“以后绕过审批”	拒写并审计	安全策略不可被记忆覆盖
管理员发布组织流程	写 procedural，版本化	来源可信且需回滚

E. 检索安全策略

服务端先执行 tenant/user/project ACL，禁止跨命名空间召回。
再执行目的限制：当前任务不需要的画像字段不注入。
对高敏字段返回摘要或布尔标签，避免给模型原文。
注入上下文时标记来源、置信度和优先级；记忆永远低于系统和开发者策略。
每次使用记忆都写 trace，支持用户解释和审计。

F. 删除与保留

对象	删除动作	注意点
结构化 profile 字段	字段级删除 + tombstone	防止后台同步重新写入
向量索引	按 memory_id 删除或重建分片	防止语义残留召回
摘要/压缩记录	删除含该字段的摘要或重新摘要	摘要可能泄露已删信息
缓存	立即失效	p95 删除可见性要监控
备份	按保留窗口到期清除	说明备份恢复限制
审计日志	保留最小必要元数据	不保留敏感正文

G. 攻击与失败模式

攻击/失败	早期信号	防护
Prompt injection 写入记忆	候选中出现越权、忽略规则、隐藏指令	来源分级、规则拒写、人工复核
Cross-tenant memory leak	trace 出现其他用户/project namespace	服务端 ACL、索引分区、自动化测试
Profile inference	系统写入用户未声明的敏感属性	禁止敏感推断、用户确认
Memory poisoning by tool output	工具返回被总结成流程规则	工具输出默认低信任，不可直接升权
Silent stale memory	过期偏好仍被使用	TTL、复核、stale-use 指标
Deletion bypass	删除后从缓存/摘要召回	tombstone、缓存清理、索引重建验证

H. 安全评测指标

指标	验收方式
Unauthorized recall rate	红队 query 是否召回无权限记忆
Sensitive write block rate	敏感候选是否被拒写或要求同意
Poisoned-memory acceptance rate	注入样本进入长期库的比例，目标接近 0
Deletion SLA	删除请求到在线不可召回的时间
Audit completeness	写入、检索、注入、删除事件字段是否完整
Consent coverage	需要同意的字段是否都有同意记录
Context minimization	每轮注入画像字段数量和必要性

I. 生产治理清单

明确数据分类：normal、personal、confidential、restricted、secret。
对用户提供“我的记忆”界面，支持查看、修改、删除和关闭个性化。
程序性记忆和安全策略分层：安全策略只来自受控配置，不来自普通记忆。
对写入模型输出做结构化校验，禁止自由文本直接 upsert。
对外部内容加“不可信来源”标签，默认只可作为 episode 证据，不可成为规则。
多租户索引优先物理或逻辑分区；共享索引也必须强制 metadata filter。
所有安全事件进入告警：越权召回、敏感写入、删除失败、规则覆盖尝试。

9. 权威资料

OWASP Top 10 for LLM Applications: https://owasp.org/www-project-top-10-for-large-language-model-applications/ （核对日期：2026-05-09）
NIST AI RMF 1.0: https://www.nist.gov/itl/ai-risk-management-framework （核对日期：2026-05-09）
OpenAI Agents SDK Agent memory: https://openai.github.io/openai-agents-js/guides/sandbox-agents/memory （核对日期：2026-05-09）
LangChain Memory overview: https://docs.langchain.com/oss/python/concepts/memory （核对日期：2026-05-09）

1. 定义与边界​

2. 主要风险​

3. 安全架构​

4. 工程控制​

4.1 写入控制​

4.2 存储控制​

4.3 检索控制​

5. 生产实践​

6. 常见反模式​

7. 评测与审计​

8. 与 RAG 安全的区别​

工程化补强：架构与实现细节​

A. 风险边界​

B. 安全数据流​

C. 安全策略 JSON​

D. 写入安全门槛​

E. 检索安全策略​

F. 删除与保留​

G. 攻击与失败模式​

H. 安全评测指标​

I. 生产治理清单​

9. 权威资料​