参考答案
核对日期:2026-05-13。
专题学习入口:
1. 阶段练习参考方向
1.1 模型网关路由表
参考路由:
| 任务 | 默认模型 | Fallback | 预算 | 门禁 | 安全要求 |
|---|---|---|---|---|---|
| 文本分类 | 小模型 | 规则或同级模型 | 低 | 准确率和延迟 | 不输出敏感字段 |
| 文档摘要 | 中模型 | 异步排队 | 中 | 摘要覆盖率 | 用户确认 |
| RAG 问答 | 中/强模型 | 降级为检索结果 | 中 | 引用和拒答 | 权限过滤 |
| 合同风险审查 | 强模型 | 人工复核 | 高 | 漏报率 | 必须人工审核 |
| Agent 工具规划 | 强模型 | 停止并升级 | 高 | 轨迹 eval | 工具最小权限 |
高风险任务不要自动 fallback 到未经评测的弱模型。
1.2 成本预算设计
示例:
| 用户类型 | 日额度 | 月额度 | 单请求上限 | 超限处理 |
|---|---|---|---|---|
| 免费用户 | 低 | 低 | 低 | 提示升级或次日恢复 |
| 团队用户 | 中 | 中 | 中 | 排队、降级或管理员审批 |
| 企业租户 | 可配置 | 合同约定 | 按功能配置 | 告警、审批、临时扩容 |
预算应按用户、租户、功能和模型维度记录。
1.3 429 降级策略
处理策略:
- 幂等低风险请求可重试,使用指数退避。
- 长任务可排队。
- 低风险生成可 fallback,但必须标记模型变化。
- 高风险审查和 Agent 工具规划应停止并升级,不盲目 fallback。
- 用户提示要说明“系统繁忙、已排队或请稍后重试”,不要暴露供应商细节。
1.4 监控面板
面板应包含:
- 请求量、成功率、错误类型。
- P50/P95/P99 延迟。
- input/output token 和总成本。
- cache hit、fallback、retry、限流。
- eval 通过率、拒答率、引用通过率。
- Agent 平均步数和人类介入率。
- 安全拦截数和高风险工具调用。
1.5 灰度和回滚流程
模型升级流程:
离线 eval -> 小流量灰度 -> 指标观察 -> 扩大比例 -> 全量 -> 复盘
回滚阈值示例:
- 核心 eval 下降超过 2%。
- 安全负例失败。
- P95 延迟上升超过 30%。
- 成本上升超过预算。
- 用户投诉或人工审核拒绝率异常。
2. 项目评分样例
高分 LLMOps 架构方案应具备:
- Gateway、SDK、provider、应用边界清晰。
- 路由依据包含质量、成本、延迟、风险和 eval。
- fallback、retry、熔断、降级都有适用条件。
- 成本账本能定位到用户、功能、版本和模型。
- 监控同时覆盖质量、成本、延迟、安全和 trace。
- Prompt、模型和 RAG 变更都有灰度和回滚。
不合格表现:
- 每个业务服务直连模型供应商。
- 路由只按价格。
- 上游失败就随便切模型。
- 没有 kill switch。
- 日志明文保存敏感输入。
3. 验收题参考答案
- 为什么生产 AI 系统需要 LLM Gateway?
Gateway 统一鉴权、路由、限流、日志、成本、缓存、fallback 和审计,避免模型调用散落在各业务系统中难以治理。
- Provider Adapter 应该屏蔽哪些差异?
屏蔽消息格式、streaming 事件、usage 字段、错误码、重试策略、结构化输出、工具调用和 request id 差异。
- 模型路由为什么不能只看价格?
便宜模型可能质量不足或风险更高。路由要综合 eval、任务风险、延迟、上下文、成本、合规和供应商稳定性。
- Retry、fallback、熔断和降级分别解决什么问题?
Retry 处理短暂失败;fallback 切备用模型或链路;熔断防止持续调用故障上游;降级保留核心体验或转人工。
- AI 缓存 key 为什么必须包含权限、模型和版本?
不同权限、模型、Prompt、RAG 版本会产生不同答案。key 不完整会导致越权、旧答案或不可复现。
- Batch 适合哪些任务,不适合哪些任务?
适合离线、非实时、可排队任务,如批量摘要、离线标注、评测。不适合实时交互、高风险审批和需要即时反馈的任务。
- 成本账本应该记录哪些字段?
用户、租户、功能、模型、provider、Prompt 版本、input/output token、费用、延迟、cache hit、fallback、trace id 和时间。
- AI 系统监控除了延迟和错误率,还应该看什么?
质量 eval、引用通过率、拒答率、成本、token、fallback、retry、安全拦截、Agent 步数、人类介入率和用户反馈。
- Prompt 和模型升级为什么必须灰度?
LLM 行为不完全确定,升级可能改变格式、语气、事实性、成本和安全表现。灰度能在小范围发现退化并快速回滚。
- 生产事故中 kill switch 和回滚如何设计?
kill switch 应能按功能、租户、模型、工具快速停用;回滚应能恢复旧 Prompt、旧模型、旧索引或关闭 Agent 写权限,并保留审计记录。