Graph-RAG

1. 定义与边界

Graph RAG 使用图结构表示实体、关系、事件、社区或文档之间的连接，并在生成前检索相关子图、社区摘要或路径证据。它适合回答需要全局关系、跨文档归纳和实体网络的问题。

Graph RAG 不是“只要用了 Neo4j 就是 RAG”，也不是替代向量检索。常见生产架构会把图检索、向量检索、关键词检索和 rerank 组合使用。

2. 为什么重要

普通 chunk 检索对局部事实有效，但对全局问题弱：

“这个组织中哪些团队围绕同一风险重复工作？”
“一组文档的核心主题和相互关系是什么？”
“某实体与某事件之间经过哪些中间实体关联？”

Graph RAG 通过实体关系和社区摘要提升全局理解能力。

3. 核心机制

两类常见查询：

Local search：围绕某实体检索邻居、路径和原文证据。
Global search：基于社区摘要回答全局性、主题性问题。

4. 工程实现

def build_graph_rag_index(documents):
    chunks = split_documents(documents)
    triples = []
    for chunk in chunks:
        triples.extend(extract_entities_relations(chunk.text, source_id=chunk.id))
    graph.upsert(triples)
    communities = detect_communities(graph)
    summaries = summarize_communities(communities, source_links=True)
    graph.store_summaries(summaries)

def graph_rag_query(query):
    intent = classify_graph_query(query)
    if intent == "global":
        evidence = retrieve_community_summaries(query)
    else:
        entities = link_entities(query)
        evidence = retrieve_subgraph_and_sources(entities)
    return generate_answer(query, evidence)

5. 生产实践

图中每条边都要保留来源 chunk，不然无法引用。
实体消歧是核心问题：同名公司、产品、缩写要合并或区分。
LLM 抽取关系需要置信度和人工/规则校验。
社区摘要要可重建，文档更新后重新计算受影响社区。
对高精度场景保留原文证据，不能只引用图摘要。

6. 常见反模式

抽取大量低质量三元组，图谱噪声高于收益。
只保存实体关系，不保存原文证据。
把社区摘要当事实源，不回溯文档。
所有问题都走 Graph RAG，成本和复杂度过高。
忽略实体消歧，导致错误关系扩散。

7. 评测方法

实体抽取 precision/recall。
关系抽取准确率。
实体链接准确率。
子图召回率和路径正确率。
全局摘要覆盖率和忠实度。
与普通向量 RAG 的端到端对比。

8. 安全与治理

图谱会显式暴露关系，可能比原文更敏感。
跨文档关系推断要标注为推断，不能冒充原文事实。
社区摘要可能泄露多个文档的聚合敏感信息。
对实体和关系做权限继承：用户必须有权访问支撑该边的源文档。

工程化补强：架构与实现细节

A. 与 Memory 的硬边界

Graph RAG处理的核心对象是实体、关系、社区摘要、claims 与原文 chunk 组成的知识图谱检索。它的目标是把外部知识转化为可验证证据，而不是保存用户偏好或 Agent 经验。 Memory 可以影响“怎么服务这个用户、这个项目、这个流程”；RAG 只能回答“证据中是否支持这个事实”。

维度	RAG	Memory
数据来源	外部文档、网页、代码、数据库、知识库	对话、任务轨迹、用户偏好、历史经验
写入方式	ingestion pipeline、同步任务、管理员上传	互动后抽取、用户确认、后台总结
核心约束	证据可追溯、权限过滤、引用准确	状态延续、偏好复用、隐私最小化
典型失败	召回错证据、引用不支持、上下文污染	错误记忆持久化、越权画像、投毒
评测指标	entity precision/recall、relationship correctness、community answer quality、source traceability	memory precision、task lift、staleness

B. 端到端 Pipeline

本主题在总链路中的重点可以概括为：documents -> chunks -> entity/relation extraction -> community detection -> reports -> graph/vector query。

C. 索引数据结构

{
  "chunk_id": "doc_2026_05_09#sec_04#chunk_003",
  "document_id": "doc_2026_05_09",
  "document_version": "v7",
  "source_uri": "s3://kb/product/manual.pdf",
  "source_type": "pdf|html|code|ticket|database",
  "title": "支付失败排查手册",
  "section_path": ["支付", "错误码", "超时"],
  "text": "...可用于回答的原文片段...",
  "span": {"page": 12, "start_char": 1840, "end_char": 2610},
  "metadata": {
    "tenant_id": "org_1",
    "acl": ["support", "engineering"],
    "created_at": "2026-05-01",
    "updated_at": "2026-05-09",
    "source_trust": "official_internal"
  },
  "retrieval": {
    "dense_vector_id": "vec_abc",
    "sparse_vector_id": "sparse_abc",
    "graph_node_ids": ["entity:timeout", "claim:retry-policy"]
  },
  "graph_method": "local|global|drift",
    "community_level": 2,
  "lineage": {
    "parser_version": "parser-2.1",
    "chunker_version": "heading-aware-1.4",
    "embedding_version": "emb-2026-05-09",
    "checksum": "sha256:..."
  }
}

没有 document_version、span、acl 和 lineage 的 RAG 索引，很难做引用、回滚、权限审计和 bad case 修复。

D. Indexing Pipeline 设计要点

阶段	关键决策	常见坑
连接器	增量同步、删除同步、权限同步	只追加不删除，导致旧知识继续被召回
解析	PDF 表格、代码块、标题层级、脚注	丢页码和结构，引用无法定位
切分	chunk 大小、overlap、父子块、表格整体性	切断条款、代码函数或表格行
元数据	tenant、ACL、时间、版本、来源可信度	检索后才做权限过滤，已经泄露给模型
向量化	embedding 模型、维度、批量、缓存	模型切换后混用旧向量
索引	vector、BM25/sparse、graph、rerank cache	不记录索引版本，无法回归评测
回收	删除、过期、重建、压缩	向量残留和缓存残留

本文件建议的索引原则是：每个实体、关系、claim、community report 都要保留来源 chunk 和抽取版本。

E. 查询期策略

局部问题用 local search，全局综述用 community/global search，探索用 DRIFT/多跳。查询期不要把“召回更多”当成唯一目标，而要控制证据质量、权限、时效和上下文预算。

E.1 Microsoft GraphRAG 查询模式核对

Microsoft GraphRAG 官方查询文档把 Query Engine 定位为基于已完成索引的检索模块，并区分 Local Search、Global Search、DRIFT Search、Basic Search 和 Question Generation。工程上不要把 GraphRAG 简化成“建一个知识图谱再向量检索”。

模式	适用问题	证据风险
Local Search	围绕具体实体、关系、局部事实的问题	抽取关系必须回源到 chunk
Global Search	需要整个语料全局综述的问题	社区报告容易过度概括
DRIFT Search	需要结合全局线索和局部细节的探索问题	搜索路径要记录，否则难复盘
Basic Search	简单检索或基线对照	不能替代复杂多跳推理
Question Generation	帮助探索语料可能问题	生成的问题不是事实证据

GraphRAG 的价值在“结构化导航 + 原文证据”，不是让图谱摘要脱离原文直接回答。

def rag_query(user_query, user_ctx):
    plan = plan_retrieval(user_query, user_ctx)
    filters = enforce_acl(user_ctx, plan.filters)
    rewritten = rewrite_query(user_query, plan, metadata_schema=INDEX_SCHEMA)
    candidates = []
    for source in plan.sources:
        candidates.extend(source.search(rewritten, filters=filters, k=plan.candidate_k))
    ranked = rerank(user_query, candidates, features=["text", "metadata", "trust", "freshness"])
    evidence = pack_context(ranked, budget=plan.context_budget, diversity=True)
    answer = generate_with_evidence(user_query, evidence)
    return verify_citations(answer, evidence)

F. 引用与证据策略

图结论必须能追溯到原文 chunk，社区摘要只能作为导航和聚合证据。引用不是格式问题，而是 evidence contract：模型只能用传入证据支持关键断言。

断言类型	证据要求	不满足时动作
简单事实	至少一个直接 chunk 支持	给出不确定或拒答
跨文档综合	多个 chunk 覆盖关键维度	明确证据范围和缺口
高风险建议	官方/内部可信来源优先	要求人审或给出保守答案
时间敏感信息	来源版本和更新时间足够新	触发刷新或说明可能过期
权限受限内容	用户有权查看原文	不引用、不泄露摘要

G. 失败模式与修复

失败模式	早期信号	修复动作
LLM 抽图错误被当成事实，或图节点失去原文证据	答案流畅但找不到支持片段	加 citation verifier 和无证据拒答
chunk 边界错误	命中片段缺上文或表格列	调整切分器、加入 parent expansion
召回偏科	概念问答好，错误码/ID 查询差	增加 hybrid search 和字段 boost
top-k 污染	上下文里半数以上无关	rerank、diversity filter、query rewrite
权限绕过	无权限文档出现在 trace	服务端 ACL 前置过滤，索引按租户隔离
索引陈旧	用户指出文档已更新	增量同步、版本水位、freshness 监控
引用漂移	引用存在但不支持断言	claim-level citation check 和回源校验

H. 评测指标

层级	指标	说明
检索	recall@k、precision@k、nDCG、MRR	gold span/doc 是否进入候选和前排
重排	rerank lift、first relevant rank	观察 reranker 是否真正改善上下文
上下文	evidence coverage、token waste、duplication rate	是否既覆盖证据又不浪费窗口
生成	answer correctness、faithfulness、abstention accuracy	答案是否正确且不编造
引用	citation precision、claim support rate、broken link rate	引用是否可打开且支持断言
安全	prompt injection success、unauthorized recall、sensitive leakage	外部内容和权限场景的红线
运维	p95 latency、index freshness、cost/query、cache hit rate	生产可用性和成本

I. 安全治理清单

检索内容是数据，不是指令；提示词中明确外部证据不能覆盖系统和开发者约束。
权限过滤必须在检索前或索引层完成，不能依赖模型“不要使用”。
对网页、用户上传文件和第三方文档做 prompt injection 扫描和来源可信度标记。
高风险领域使用白名单来源、版本锁定、引用校验和无法支持时拒答。
记录 query、filters、命中文档、分数、rerank 理由、上下文包和最终引用，支持审计。
建立 bad case 回流：每个失败样本标注失败层级，并绑定索引版本、prompt 版本和模型版本。

9. 权威资料

Microsoft GraphRAG GitHub: https://github.com/microsoft/graphrag （核对日期：2026-05-09）
Microsoft GraphRAG documentation: https://microsoft.github.io/graphrag/ （核对日期：2026-05-09）
From Local to Global: A Graph RAG Approach to Query-Focused Summarization: https://arxiv.org/abs/2404.16130
LlamaIndex Knowledge Graph Index examples: https://developers.llamaindex.ai/python/examples/index_structs/knowledge_graph/knowledgegraphdemo/ （核对日期：2026-05-09）

1. 定义与边界​

2. 为什么重要​

3. 核心机制​

4. 工程实现​

5. 生产实践​

6. 常见反模式​

7. 评测方法​

8. 安全与治理​

工程化补强：架构与实现细节​

A. 与 Memory 的硬边界​

B. 端到端 Pipeline​

C. 索引数据结构​

D. Indexing Pipeline 设计要点​

E. 查询期策略​

E.1 Microsoft GraphRAG 查询模式核对​

F. 引用与证据策略​

G. 失败模式与修复​

H. 评测指标​

I. 安全治理清单​

9. 权威资料​