跳到主要内容

cost-and-ops

核对日期：2026-05-13。

1. 运营目标

目标	阈值	说明
平均延迟	[例如 <= 8s]	用户等待体验
首 token 延迟	[例如 <= 2s]	流式输出体验
单任务成本	[例如 <= 0.05 USD]	规模化成本
错误率	[例如 <= 2%]	API 和系统稳定性
评测通过率	[例如 >= 85%]	质量门槛

2. 成本账本

样例 id	输入 token	输出 token	检索耗时	模型耗时	总延迟	估算成本
[case id]	[n]	[n]	[ms]	[ms]	[ms]	[cost]

记录成本时要同时记录模型、日期和价格来源，因为模型价格变化较快。

3. 可观测指标

指标	维度	用途
request_count	用户、功能、模型	了解使用量
latency_ms	p50、p90、p99	定位体验问题
token_count	input、output、total	控制成本
error_count	provider、parser、tool	识别失败类型
eval_pass_rate	数据集、版本、类别	发布门禁
refusal_rate	场景、用户、数据源	检查过度拒答或不足拒答

4. 降级策略

触发条件	降级动作	用户体验
模型超时	切换备用模型或提示稍后重试	明确说明未完成
检索失败	请求用户补充信息或拒答	不编造答案
成本超预算	限流、缩短上下文、使用缓存	保留核心任务
安全告警	停用工具、切人工审核	保护数据和业务

5. 灰度发布

推荐顺序：

本地 eval 通过。
内部小范围试用。
限定用户、限定任务、限定数据源灰度。
扩大到真实流程中的辅助模式。
再考虑自动执行或写入能力。

6. 回滚方案

必须能回滚：

模型版本。
Prompt 版本。
检索索引版本。
工具权限配置。
前端入口开关。

7. 复盘节奏

周期	复盘内容	产出
每日	错误、成本、用户反馈	失败样例更新
每周	eval 通过率、功能采纳	改进计划
每次发布前	回归集、安全负例	发布结论

1. 运营目标
2. 成本账本
3. 可观测指标
4. 降级策略
5. 灰度发布
6. 回滚方案
7. 复盘节奏