跳到主要内容

05-线上评测与发布门禁

核对日期:2026-05-13。

不稳定项:线上反馈工具、A/B 平台、评测 API、模型版本、供应商日志和监控系统会持续变化;生产发布门禁必须结合实际流量、业务风险和回滚能力校准。

1. 学习目标

本专题关注评测如何进入生产发布流程。离线评测能降低风险,但不能替代真实用户反馈;线上指标能反映真实使用,但也有偏差。

学完后你应该能做到:

  • 设计发布前回归评测流程。
  • 定义质量、成本、延迟、安全的发布门禁。
  • 设计灰度、A/B、线上抽样评测和用户反馈闭环。
  • 把线上失败转为回归样例。
  • 为模型、Prompt、RAG 和 Agent 变更设计回滚条件。

2. 发布前流程

推荐流程:

变更提交
-> smoke eval
-> full offline eval
-> safety eval
-> cost/latency check
-> human spot review
-> internal dogfood
-> small traffic canary
-> monitor
-> ramp up or rollback

每一步都要有通过标准,而不是“看起来没问题”。

3. 发布门禁

门禁示例阈值
核心任务通过率不低于当前线上版本
安全负例100% 通过
RAG 引用支持率>= 目标阈值
Agent 越权0
schema 通过率>= 目标阈值
P95 延迟不超过阈值
单请求成本不超过预算
回滚方案已验证

高风险安全失败不能被平均分掩盖。

4. 线上指标

质量指标:

  • 用户采纳率。
  • 人工审核通过率。
  • 编辑距离。
  • 重新生成率。
  • 负反馈率。
  • 引用点击率。
  • 拒答后追问率。

系统指标:

  • 成功率。
  • 错误率。
  • P50/P95/P99 延迟。
  • token 用量。
  • 成本。
  • fallback rate。
  • tool error rate。

安全指标:

  • prompt injection 拦截。
  • 越权请求。
  • DLP 命中。
  • 高风险工具审批。

5. 线上指标偏差

线上指标需要解释。

例子:

  • 采纳率高不一定正确,用户可能无法判断。
  • 负反馈低不一定好,用户可能没有反馈入口。
  • 引用点击率低不一定引用无用,可能答案足够清楚。
  • 拒答率下降不一定好,可能模型开始编造。

所以线上指标要和离线 eval、人工抽检、trace 分析结合。

6. A/B 与灰度

A/B 适合比较:

  • Prompt A vs Prompt B。
  • 模型 A vs 模型 B。
  • RAG top_k 方案。
  • 回答格式。

不适合:

  • 未通过安全 eval 的能力。
  • 高风险审批是否开启。
  • 没有回滚能力的变更。

灰度指标:

  • 分组流量是否均衡。
  • 样本量是否足够。
  • 是否有高风险样例单独监控。
  • 是否能快速回滚。

7. 线上失败入库

线上失败进入回归集流程:

用户反馈 / 人工审核 / 告警
-> 找 trace
-> 脱敏
-> 标注 expected behavior
-> 归因 failure type
-> 加入 eval dataset
-> 修复
-> 回归验证

失败样例字段:

  • 原始输入摘要。
  • 实际输出。
  • 期望行为。
  • 失败类型。
  • 根因。
  • 关联版本。
  • 修复状态。
  • 是否回归。

8. 回滚条件

模型或 Prompt 变更应定义回滚阈值:

指标回滚
安全负例失败立即回滚
核心 eval 下降超过阈值停止放量
成本上涨超过预算停止放量
P95 延迟显著变差降级或回滚
schema 失败率上升回滚 Prompt/parser
负反馈异常回滚并分析

回滚能力要在发布前验证。

9. 评测报告

发布评测报告应包含:

# AI 系统评测报告

## 1. 被测对象
## 2. 模型 / Prompt / 数据版本
## 3. 评测集说明
## 4. 指标总览
## 5. 分任务结果
## 6. 失败类型分布
## 7. 典型失败样例
## 8. 成本和延迟
## 9. 安全负例结果
## 10. 是否建议上线
## 11. 后续修复计划

报告要给出上线建议,而不是只堆指标。

10. 常见反模式

反模式表现后果修正
无门禁想发就发回归频繁发布阈值
只看平均分安全失败被掩盖高风险事故一票否决
线上反馈不入库问题反复发生无回归失败闭环
A/B 无样本控制结论偏错误决策分组和样本量
回滚未验证出事无法退影响扩大发布前演练

11. 练习

为一次“企业知识库 RAG Prompt 升级”设计发布门禁:

  • 离线 eval。
  • 安全 eval。
  • 成本延迟检查。
  • 内部灰度。
  • 1% 流量灰度。
  • 回滚阈值。
  • 线上失败入库流程。

12. 验收题

  1. 离线评测和线上指标各自解决什么问题?
  2. 发布门禁为什么不能只看平均分?
  3. 哪些 AI 变更需要回归评测?
  4. 线上指标有哪些常见偏差?
  5. 如何把线上失败转为回归样例?
  6. 回滚条件应该在什么时候定义?