跳到主要内容

参考答案

核对日期:2026-05-13。

专题学习入口:

1. 阶段练习参考方向

1.1 模型网关路由表

参考路由:

任务默认模型Fallback预算门禁安全要求
文本分类小模型规则或同级模型准确率和延迟不输出敏感字段
文档摘要中模型异步排队摘要覆盖率用户确认
RAG 问答中/强模型降级为检索结果引用和拒答权限过滤
合同风险审查强模型人工复核漏报率必须人工审核
Agent 工具规划强模型停止并升级轨迹 eval工具最小权限

高风险任务不要自动 fallback 到未经评测的弱模型。

1.2 成本预算设计

示例:

用户类型日额度月额度单请求上限超限处理
免费用户提示升级或次日恢复
团队用户排队、降级或管理员审批
企业租户可配置合同约定按功能配置告警、审批、临时扩容

预算应按用户、租户、功能和模型维度记录。

1.3 429 降级策略

处理策略:

  • 幂等低风险请求可重试,使用指数退避。
  • 长任务可排队。
  • 低风险生成可 fallback,但必须标记模型变化。
  • 高风险审查和 Agent 工具规划应停止并升级,不盲目 fallback。
  • 用户提示要说明“系统繁忙、已排队或请稍后重试”,不要暴露供应商细节。

1.4 监控面板

面板应包含:

  • 请求量、成功率、错误类型。
  • P50/P95/P99 延迟。
  • input/output token 和总成本。
  • cache hit、fallback、retry、限流。
  • eval 通过率、拒答率、引用通过率。
  • Agent 平均步数和人类介入率。
  • 安全拦截数和高风险工具调用。

1.5 灰度和回滚流程

模型升级流程:

离线 eval -> 小流量灰度 -> 指标观察 -> 扩大比例 -> 全量 -> 复盘

回滚阈值示例:

  • 核心 eval 下降超过 2%。
  • 安全负例失败。
  • P95 延迟上升超过 30%。
  • 成本上升超过预算。
  • 用户投诉或人工审核拒绝率异常。

2. 项目评分样例

高分 LLMOps 架构方案应具备:

  • Gateway、SDK、provider、应用边界清晰。
  • 路由依据包含质量、成本、延迟、风险和 eval。
  • fallback、retry、熔断、降级都有适用条件。
  • 成本账本能定位到用户、功能、版本和模型。
  • 监控同时覆盖质量、成本、延迟、安全和 trace。
  • Prompt、模型和 RAG 变更都有灰度和回滚。

不合格表现:

  • 每个业务服务直连模型供应商。
  • 路由只按价格。
  • 上游失败就随便切模型。
  • 没有 kill switch。
  • 日志明文保存敏感输入。

3. 验收题参考答案

  1. 为什么生产 AI 系统需要 LLM Gateway?

Gateway 统一鉴权、路由、限流、日志、成本、缓存、fallback 和审计,避免模型调用散落在各业务系统中难以治理。

  1. Provider Adapter 应该屏蔽哪些差异?

屏蔽消息格式、streaming 事件、usage 字段、错误码、重试策略、结构化输出、工具调用和 request id 差异。

  1. 模型路由为什么不能只看价格?

便宜模型可能质量不足或风险更高。路由要综合 eval、任务风险、延迟、上下文、成本、合规和供应商稳定性。

  1. Retry、fallback、熔断和降级分别解决什么问题?

Retry 处理短暂失败;fallback 切备用模型或链路;熔断防止持续调用故障上游;降级保留核心体验或转人工。

  1. AI 缓存 key 为什么必须包含权限、模型和版本?

不同权限、模型、Prompt、RAG 版本会产生不同答案。key 不完整会导致越权、旧答案或不可复现。

  1. Batch 适合哪些任务,不适合哪些任务?

适合离线、非实时、可排队任务,如批量摘要、离线标注、评测。不适合实时交互、高风险审批和需要即时反馈的任务。

  1. 成本账本应该记录哪些字段?

用户、租户、功能、模型、provider、Prompt 版本、input/output token、费用、延迟、cache hit、fallback、trace id 和时间。

  1. AI 系统监控除了延迟和错误率,还应该看什么?

质量 eval、引用通过率、拒答率、成本、token、fallback、retry、安全拦截、Agent 步数、人类介入率和用户反馈。

  1. Prompt 和模型升级为什么必须灰度?

LLM 行为不完全确定,升级可能改变格式、语气、事实性、成本和安全表现。灰度能在小范围发现退化并快速回滚。

  1. 生产事故中 kill switch 和回滚如何设计?

kill switch 应能按功能、租户、模型、工具快速停用;回滚应能恢复旧 Prompt、旧模型、旧索引或关闭 Agent 写权限,并保留审计记录。