跳到主要内容

cost-and-ops

核对日期:2026-05-13。

说明:本文件使用示例数据。真实项目必须按实际模型、价格、流量和部署方式重新计算。

1. 运营目标

目标阈值说明
平均延迟<= 8s包含检索、重排和模型生成
首 token 延迟<= 2s如果使用流式输出
单次问答成本<= 预算阈值按实际模型价格计算
安全负例通过率100%注入和越权不能失败
引用支持率>= 90%保证回答可追溯

2. 示例成本画像

类型平均值风险
用户问题 tokens60风险低
检索证据 tokens1800长文档会快速增加成本
系统和开发者指令 tokens500Prompt 过厚会增加固定成本
输出 tokens350过长答案影响体验
检索耗时300ms索引规模增长后需优化
重排耗时500msrerank 模型可能成为瓶颈
模型耗时3-6s取决于模型和输出长度

成本优化优先级:

  1. 控制证据包大小。
  2. 优先返回步骤化摘要,不复述整篇文档。
  3. 对低风险高频问题做权限感知缓存。
  4. 将复杂问题和简单问题走不同模型或不同上下文预算。

3. 可观测指标

指标维度用途
request_count用户、部门、入口判断使用规模
retrieval_empty_rate部门、问题类型发现缺文档问题
citation_missing_rateprompt 版本、模型发现引用失效
refusal_rate问题类型检查过度拒答
security_block_count攻击类型安全态势
latency_p90模块、模型定位性能瓶颈
token_total模型、问题类型成本管理
feedback_negative_rate文档、问题类型文档和系统优化

4. 灰度计划

阶段范围门禁
本地验证合成文档 + eval安全负例 100% 通过
内部试用5-10 名 owner正常样例通过率 >= 85%
部门灰度研发和 HR负反馈可在 7 天内关闭
全员只读全员制度和研发流程有监控、限流、回滚

5. 降级方案

触发条件降级动作
模型超时返回搜索结果和文档链接
检索为空请求补充关键词或部门
引用校验失败拒答并提示人工查询
成本超过预算限流、缩短上下文、关闭重排
安全告警关闭问答生成,仅保留搜索

6. 回滚清单

  • 回滚 prompt 版本。
  • 回滚模型 provider。
  • 回滚索引版本。
  • 关闭高风险文档源。
  • 清理权限错误导致的缓存。
  • 从回答模式降级到搜索模式。