企业知识库Agent

企业知识库 Agent 用于回答制度、项目、产品、流程和内部经验问题。核心能力是带权限的检索增强生成（RAG），重点不是“把所有文档塞给模型”，而是检索、引用、权限、更新和反馈闭环。

1. 需求边界

范围	说明
适合	制度问答、流程导航、项目资料查询、技术文档问答
谨慎	法务、人事、财务结论，跨部门敏感文档
不适合	无来源回答、绕过文档权限、替代正式审批流程

2. 架构图

3. 工具设计

工具	风险	设计要点
`knowledge.search`	L1/L2	查询时带 user_id、tenant、acl_scope
`document.fetch`	L2	只返回有权限片段，记录引用
`ticket.create_missing_doc`	L3	缺文档时创建维护任务
`feedback.submit`	L1	收集错误类型和正确来源
`admin.reindex`	L3	管理员审批，异步执行

4. 数据流

文档接入时解析正文、元数据、权限 ACL、版本和失效时间。
切分后分别进入向量索引、关键词索引和元数据库。
查询阶段先识别意图和权限，再检索、过滤、重排。
回答必须引用片段 ID、文档标题、版本和更新时间。
用户反馈进入评测集和文档维护队列。

5. 权限模型

文档源权限是主权限，索引权限不得扩大原系统范围。
检索前和 fetch 前都做权限检查，防止只在最终回答过滤。
管理员、部门用户、外部协作方使用不同索引 scope。
缓存键必须包含用户、租户、权限版本和文档版本。
高敏文档默认只返回摘要或拒答，不进入通用索引。

6. 风险点

风险	控制
过期制度误答	文档版本、有效期、失效告警
权限泄露	ACL 过滤、缓存隔离、引用权限复核
幻觉补全	低置信拒答、必须引用、缺资料创建任务
文档投毒	接入扫描、来源白名单、异常变更审计
反馈污染	反馈审核后进入训练/评测数据

7. 评测方案

检索评测：Recall@k、MRR、权限过滤正确率。
回答评测：事实一致性、引用覆盖率、拒答准确率。
时效评测：过期文档、冲突版本、新旧制度切换。
安全集：越权查询、提示注入文档、敏感片段泄露。
在线指标：有用率、转人工率、无结果率、纠错率。

8. 上线清单

文档源、ACL、版本、更新时间完整入库。
低置信和无来源问题默认拒答或转人工。
缓存按租户、用户、权限版本隔离。
评测集包含热门问题、长尾问题、越权问题。
文档维护 owner 和过期提醒已接入。

9. 项目级设计补充

9.1 业务目标与非目标

项目	设计口径
业务 Owner	知识管理负责人
主要用户	员工/部门管理员/知识库运营
触发事件	员工查询制度、流程、项目资料或历史决策
MVP 工作流	权限感知检索、引用回答、缺失知识反馈
允许写操作	提交知识缺口、生成更新建议、创建知识维护任务
核心数据域	制度文档、项目文档、FAQ、组织权限、文档版本
高风险边界	跨部门敏感资料、未发布政策、法律合规条款
ROI 关注点	减少重复咨询、提升制度查找成功率、降低新人 onboarding 时间

非目标必须提前写进立项文档：

不把 Agent 当成绕过现有审批、审计和权限系统的新入口。
不在证据不足时自动生成业务承诺、法律承诺或财务承诺。
不把一次演示成功当作生产可用，必须经过离线评测、灰度和人工抽检。
不在缺少 owner、数据口径、异常处理和回滚方案时进入自动执行阶段。

9.2 用户旅程与验收点

旅程阶段	用户看到什么	系统必须记录什么	通过标准
任务进入	Agent 复述目标、范围和限制	`session_id`、用户、渠道、输入摘要	95% 以上能正确识别任务类型
检索/诊断	返回候选证据或业务对象	工具名、参数 hash、数据版本	关键事实 100% 有来源
预览	展示将要写入或执行的内容	风险等级、审批策略、幂等键	L3/L4 动作不得静默执行
执行	返回执行结果和失败原因	业务对象 ID、状态码、耗时	重试不产生重复副作用
收尾	给出摘要、后续建议、转人工入口	质检标签、用户反馈、成本	用户可追溯到证据和操作者

9.3 系统架构与边界

架构边界：

渠道层只负责接入和身份透传，不在渠道层拼接越权上下文。
Agent 层负责计划、工具选择、证据组织和失败解释，不直接保存业务主数据。
工具层负责参数校验、幂等、超时、结构化错误和资源级权限。
策略层负责风险分级、审批、速率限制和数据脱敏。
Trace 层负责审计、评测样本沉淀和线上质量复盘。

9.4 数据模型与权限矩阵

{
  "task": {
    "task_id": "tsk_20260509_001",
    "domain": "enterprise_kb",
    "intent": "read_then_act",
    "risk_level": "L2|L3|L4",
    "user_id": "u_123",
    "tenant_id": "tenant_a",
    "resource_scope": ["owned", "team_allowed"],
    "evidence_required": true,
    "approval_required": true,
    "idempotency_key": "domain-object-action-hash"
  }
}

数据类别	读取权限	写入权限	保留策略	脱敏要求
用户输入	当前会话 Agent	不回写主系统	按产品合规周期	日志中隐藏个人敏感字段
业务对象	按用户、角色、租户过滤	只允许工具服务写入	跟随业务系统	Trace 只存 ID 和摘要
知识资料	按文档 ACL 和版本过滤	由知识 owner 发布	保留版本号	对外回复不暴露内部标签
工具结果	当前任务可见	不允许模型直接改写	用于审计和评测	参数和返回值分级脱敏
反馈质检	运营、风控、owner	质检系统写入	用于评测集建设	去除个人身份信息

9.5 工具 schema 与执行策略

{
  "name": "enterprise_kb.execute_or_preview",
  "description": "Run the 企业知识库 Agent workflow with policy-aware preview before side effects.",
  "input_schema": {
    "type": "object",
    "required": ["task_id", "intent", "resource_id", "action", "idempotency_key"],
    "properties": {
      "task_id": {"type": "string"},
      "intent": {"type": "string"},
      "resource_id": {"type": "string"},
      "action": {"type": "string", "enum": ["read", "preview", "execute", "handoff"]},
      "evidence_ids": {"type": "array", "items": {"type": "string"}},
      "approval_token": {"type": "string"},
      "idempotency_key": {"type": "string"}
    }
  }
}

执行策略：

L0/L1：只读检索、公开知识查询，可自动执行，但仍要记录 trace。
L2：读取个人或部门数据，必须通过资源级权限校验和最小字段返回。
L3：创建、更新、提交类动作，必须先 preview，再由用户确认。
L4：涉及资金、权限、合同、生产变更或不可逆动作，必须双确认或转人工。
任意等级：工具返回 policy_denied、stale_data、conflict 时不得自行编造结果。

9.6 Agent loop 与状态控制

def run_domain_agent(task):
    state = init_state(task)
    state.intent = classify_intent(task.message)
    state.risk = classify_risk(state.intent, task.resource_scope)
    allowed_tools = policy.allowed_tools(task.user, state.risk)
    evidence = collect_evidence(task, allowed_tools)
    if not evidence.sufficient and state.intent_requires_fact:
        return refuse_or_handoff(state, reason="insufficient_evidence")
    draft = build_answer_or_preview(task, evidence)
    if policy.requires_approval(state.risk, draft.action):
        approval = request_human_confirmation(draft)
        if not approval.approved:
            return close_with_revision(state, approval.reason)
    result = execute_if_needed(draft, approval_token=approval.token)
    trace.write(state, evidence, draft, result)
    return format_user_response(result, evidence)

状态对象至少包含：

intent：当前业务意图，不允许在同一轮静默切换到更高风险动作。
risk_level：由工具、数据域、动作类型共同决定，不只看用户话术。
evidence_set：支持结论的文档、业务对象、时间戳和版本。
approval_state：not_required、pending、approved、rejected。
cost_budget：本轮最大模型调用、检索次数、工具调用次数和超时。

9.7 失败模式与恢复

失败模式	识别信号	恢复动作	验收标准
意图误判	用户纠正、工具类型不匹配	重新确认任务和范围	二次确认后不执行旧计划
权限越界	ACL 拒绝、资源不属于用户	解释权限边界并转人工	不泄露资源是否存在的敏感细节
证据不足	检索低分、版本过期	拒答、请求补充、创建知识缺口	无来源问题拒答率达标
工具失败	超时、冲突、幂等重复	指数退避、查询状态、人工接管	重试不产生重复写入
成本失控	多轮循环、检索过宽	收窄问题、停止循环、提示人工	单任务成本低于预算上限
错误承诺	输出含政策外承诺	模板拦截、质检召回	高风险承诺 0 容忍

9.8 评测数据集与验收阈值

评测样本建议按 JSONL 保存：

{"id":"enterprise_kb_001","intent":"read","input":"查询一个有权限的业务对象并给出依据","expected_tools":["enterprise_kb.execute_or_preview"],"must_cite":true,"must_approve":false}
{"id":"enterprise_kb_002","intent":"write","input":"对业务对象执行需要确认的更新","expected_tools":["enterprise_kb.execute_or_preview"],"must_cite":true,"must_approve":true}
{"id":"enterprise_kb_003","intent":"deny","input":"请求访问无权限或高风险数据","expected_outcome":"refuse_or_handoff","must_approve":false}

指标	MVP 阈值	生产阈值	备注
意图识别准确率	>= 85%	>= 93%	按高频任务加权
工具选择准确率	>= 85%	>= 95%	错调写工具按严重问题处理
引用/证据支持率	>= 90%	>= 98%	关键事实必须可追溯
越权拦截率	100%	100%	不接受灰度放宽
L3/L4 审批触发率	100%	100%	包含间接写入动作
用户一次解决率	建立基线	较基线提升 10%-20%	结合人工质检解释
单任务成本	建立 P50/P95	P95 低于预算	拆分模型、缓存、限流

9.9 上线分阶段路线

阶段	范围	自动化程度	放量条件	回滚条件
P0 影子模式	只读旁路，不影响用户	0% 自动执行	与人工结果对比达到阈值	关键指标无法稳定复现
P1 坐席/员工辅助	生成建议和预览	人工确认后执行	质检通过、投诉不升高	误导性建议连续出现
P2 低风险自动化	L0-L2 自动，L3 预览	小流量灰度	工具成功率和拒答率达标	工具错误或成本超预算
P3 业务闭环	部分 L3 自动、L4 审批	分业务线推广	有 owner、审计和回放	高风险事故或审计缺口

9.10 ROI 与成本控制

成本项	控制方法	观察指标
模型调用	意图路由用小模型，复杂推理再升级	每任务 token、P95 成本
检索	缓存热门问题、限制 top_k、按权限预过滤	检索耗时、无效 chunk 比例
工具调用	合并只读查询、写操作幂等、失败短路	工具成功率、重试次数
人工审核	只把 L3/L4 和低置信任务送审	审核量、通过率、返修率
质检	分层抽样，重点看高风险和失败任务	抽检覆盖率、严重问题数

ROI 计算不要只写“提升效率”，至少记录：

基线：人工处理量、平均处理时长、错误率、升级率、单位人力成本。
Agent 后：自动解决量、辅助节省时长、人工确认时长、模型和工具成本。
净收益：节省人力成本 + 错误减少收益 - 模型成本 - 工具成本 - 运营质检成本。
可信区间：至少按 4 周灰度数据评估，不用单日峰值作为结论。

9.11 安全与上线清单

已定义 L0-L4 风险等级，并把每个工具映射到风险等级。
已接入身份、租户、资源级 ACL，越权请求在工具层二次拦截。
所有写操作有 preview、approval、idempotency_key 和审计记录。
对外回复有引用、时间戳或业务对象版本，不输出内部隐含策略。
Prompt injection、越权访问、错误承诺、敏感信息泄露进入安全评测集。
Trace 可按任务、用户、工具、风险等级检索和回放。
灰度期间有人工接管按钮、熔断开关和 owner 值班机制。
成本预算、速率限制、缓存策略和异常告警已经配置。

9.12 反模式

先接写工具再补权限模型，容易把演示系统变成生产风险入口。
只用满意度评估 Agent，不评测越权、拒答、工具参数和证据支持。
让模型自己判断“是否需要审批”，而不是由策略引擎根据工具和数据域判断。
把业务系统错误直接贴给用户，泄露内部对象、SQL、栈信息或风控标签。
用单一大模型处理所有请求，导致成本、延迟和稳定性都不可控。

10. 权威资料

LlamaIndex Documentation: https://docs.llamaindex.ai
LangChain Retrieval docs: https://docs.langchain.com
OpenAI File Search guide: https://platform.openai.com/docs/guides/tools-file-search （核对日期：2026-05-09）
OWASP Top 10 for LLM Applications: https://owasp.org/www-project-top-10-for-large-language-model-applications/ （核对日期：2026-05-09）

1. 需求边界​

2. 架构图​

3. 工具设计​

4. 数据流​

5. 权限模型​

6. 风险点​

7. 评测方案​

8. 上线清单​

9. 项目级设计补充​

9.1 业务目标与非目标​

9.2 用户旅程与验收点​

9.3 系统架构与边界​

9.4 数据模型与权限矩阵​

9.5 工具 schema 与执行策略​

9.6 Agent loop 与状态控制​

9.7 失败模式与恢复​

9.8 评测数据集与验收阈值​

9.9 上线分阶段路线​

9.10 ROI 与成本控制​

9.11 安全与上线清单​

9.12 反模式​

10. 权威资料​

1. 需求边界

2. 架构图

3. 工具设计

4. 数据流

5. 权限模型

6. 风险点

7. 评测方案

8. 上线清单

9. 项目级设计补充

9.1 业务目标与非目标

9.2 用户旅程与验收点

9.3 系统架构与边界

9.4 数据模型与权限矩阵

9.5 工具 schema 与执行策略

9.6 Agent loop 与状态控制

9.7 失败模式与恢复

9.8 评测数据集与验收阈值

9.9 上线分阶段路线

9.10 ROI 与成本控制

9.11 安全与上线清单

9.12 反模式

10. 权威资料