核对日期:2026-05-13。
1. 运营目标
| 目标 | 阈值 | 说明 |
|---|
| 平均延迟 | [例如 <= 8s] | 用户等待体验 |
| 首 token 延迟 | [例如 <= 2s] | 流式输出体验 |
| 单任务成本 | [例如 <= 0.05 USD] | 规模化成本 |
| 错误率 | [例如 <= 2%] | API 和系统稳定性 |
| 评测通过率 | [例如 >= 85%] | 质量门槛 |
2. 成本账本
| 样例 id | 输入 token | 输出 token | 检索耗时 | 模型耗时 | 总延迟 | 估算成本 |
|---|
| [case id] | [n] | [n] | [ms] | [ms] | [ms] | [cost] |
记录成本时要同时记录模型、日期和价格来源,因为模型价格变化较快。
3. 可观测指标
| 指标 | 维度 | 用途 |
|---|
| request_count | 用户、功能、模型 | 了解使用量 |
| latency_ms | p50、p90、p99 | 定位体验问题 |
| token_count | input、output、total | 控制成本 |
| error_count | provider、parser、tool | 识别失败类型 |
| eval_pass_rate | 数据集、版本、类别 | 发布门禁 |
| refusal_rate | 场景、用户、数据源 | 检查过度拒答或不足拒答 |
4. 降级策略
| 触发条件 | 降级动作 | 用户体验 |
|---|
| 模型超时 | 切换备用模型或提示稍后重试 | 明确说明未完成 |
| 检索失败 | 请求用户补充信息或拒答 | 不编造答案 |
| 成本超预算 | 限流、缩短上下文、使用缓存 | 保留核心任务 |
| 安全告警 | 停用工具、切人工审核 | 保护数据和业务 |
5. 灰度发布
推荐顺序:
- 本地 eval 通过。
- 内部小范围试用。
- 限定用户、限定任务、限定数据源灰度。
- 扩大到真实流程中的辅助模式。
- 再考虑自动执行或写入能力。
6. 回滚方案
必须能回滚:
- 模型版本。
- Prompt 版本。
- 检索索引版本。
- 工具权限配置。
- 前端入口开关。
7. 复盘节奏
| 周期 | 复盘内容 | 产出 |
|---|
| 每日 | 错误、成本、用户反馈 | 失败样例更新 |
| 每周 | eval 通过率、功能采纳 | 改进计划 |
| 每次发布前 | 回归集、安全负例 | 发布结论 |