跳到主要内容

cost-and-ops

核对日期:2026-05-13。

1. 运营目标

目标阈值说明
平均延迟[例如 <= 8s]用户等待体验
首 token 延迟[例如 <= 2s]流式输出体验
单任务成本[例如 <= 0.05 USD]规模化成本
错误率[例如 <= 2%]API 和系统稳定性
评测通过率[例如 >= 85%]质量门槛

2. 成本账本

样例 id输入 token输出 token检索耗时模型耗时总延迟估算成本
[case id][n][n][ms][ms][ms][cost]

记录成本时要同时记录模型、日期和价格来源,因为模型价格变化较快。

3. 可观测指标

指标维度用途
request_count用户、功能、模型了解使用量
latency_msp50、p90、p99定位体验问题
token_countinput、output、total控制成本
error_countprovider、parser、tool识别失败类型
eval_pass_rate数据集、版本、类别发布门禁
refusal_rate场景、用户、数据源检查过度拒答或不足拒答

4. 降级策略

触发条件降级动作用户体验
模型超时切换备用模型或提示稍后重试明确说明未完成
检索失败请求用户补充信息或拒答不编造答案
成本超预算限流、缩短上下文、使用缓存保留核心任务
安全告警停用工具、切人工审核保护数据和业务

5. 灰度发布

推荐顺序:

  1. 本地 eval 通过。
  2. 内部小范围试用。
  3. 限定用户、限定任务、限定数据源灰度。
  4. 扩大到真实流程中的辅助模式。
  5. 再考虑自动执行或写入能力。

6. 回滚方案

必须能回滚:

  • 模型版本。
  • Prompt 版本。
  • 检索索引版本。
  • 工具权限配置。
  • 前端入口开关。

7. 复盘节奏

周期复盘内容产出
每日错误、成本、用户反馈失败样例更新
每周eval 通过率、功能采纳改进计划
每次发布前回归集、安全负例发布结论