跳到主要内容

参考答案

核对日期:2026-05-13。

1. 阶段练习参考方向

1.1 项目需求文档

合格 PRD 应包含:

  • 目标用户和使用频率。
  • 当前流程和痛点。
  • AI 介入点以及不介入的环节。
  • MVP 范围和非目标。
  • 成功指标和失败指标。
  • 数据、权限、日志和安全边界。
  • 评测集和上线门禁。

不要把 PRD 写成模型功能清单,要写成业务任务流。

1.2 架构图

架构图至少体现:

用户 -> 前端状态机 -> API -> 模型网关 -> RAG/工具/模型
-> 日志/trace
-> eval/反馈
-> 权限/审计

同时画出失败路径:模型失败、检索无证据、工具权限不足、用户取消、人工审批拒绝和回滚。

1.3 评测集

30 条 eval 建议分布:

  • 12 条正常任务。
  • 6 条边界任务。
  • 4 条拒答任务。
  • 5 条安全负例。
  • 3 条历史失败或人工构造失败。

每条包含输入、期望行为、评分标准、风险等级、标签和是否需要引用。

1.4 安全评审

安全评审应回答:

  • 哪些输入不可信。
  • 哪些数据不能进入模型。
  • 工具权限如何分级。
  • 哪些动作需要人工确认。
  • 日志和缓存如何脱敏。
  • 注入、越权、泄漏如何测试。
  • 出事故如何停用和回滚。

1.5 作品集答辩

10 分钟答辩要避免现场随机生成不可控输出。建议固定 demo 样例:

  • 2 分钟:用户、场景、价值和非目标。
  • 3 分钟:架构、数据流、模型流、权限流。
  • 2 分钟:eval 结果、失败样例和改进。
  • 2 分钟:安全、成本、灰度和回滚。
  • 1 分钟:下一步计划。

2. 项目评分样例

高分综合项目应具备:

  • 真实任务场景,不只是聊天框。
  • 可运行 MVP 或清晰伪代码。
  • 文档包含 PRD、架构、评测、安全、成本和运维。
  • eval 有正常、边界、拒答、安全和失败样例。
  • 输出可追溯,有 trace、引用或工具轨迹。
  • 有明确的人类确认、回滚和 kill switch。
  • 能解释技术取舍和下一步。

不合格表现:

  • 堆砌 RAG、Agent、LLMOps 名词,但链路不清。
  • 没有评测和失败样例。
  • 没有安全评审。
  • 演示依赖临场随机输出。
  • README 只有运行命令,没有设计说明。

3. 验收题参考答案

  1. 你的项目为什么需要 AI,而不是普通规则或传统软件?

因为任务包含非结构化输入、语义理解、生成、检索或动态工具选择,固定规则难以覆盖。但仍要说明哪些部分继续使用规则和 Workflow。

  1. 目标用户是谁,任务是什么?

答案应具体到角色、频率、输入、输出和成功标准。例如“客服主管每天审核 80 条复杂工单回复草稿,目标是减少初稿时间并保持合规”。

  1. 你为什么选择 RAG、Workflow 或 Agent?

RAG 用于需要外部知识和引用;Workflow 用于路径固定和高可控流程;Agent 用于路径不固定、需要根据工具反馈迭代的任务。选择必须和风险匹配。

  1. 你的系统成功标准是什么?

应包含任务质量、用户采用、效率、成本、延迟、安全和失败率。例如引用通过率、采纳率、平均处理时长、P95 延迟和安全负例通过率。

  1. 你的评测集覆盖了哪些正常、边界和安全样例?

应说明样例分布、标签、期望行为和评分标准,并展示至少几个失败样例如何进入回归集。

  1. 你的失败样例说明了什么?

失败样例应能定位问题层级:数据缺失、检索失败、Prompt 不清、模型能力不足、工具错误、权限问题或 UX 误导。

  1. 安全边界在哪里,哪些动作需要人工确认?

安全边界包括用户输入、RAG 文档、模型输出、工具调用、日志和供应商。资金、删除、对外发送、权限变更和合规承诺必须人工确认。

  1. 如果模型输出错误,用户如何发现和回退?

通过引用、置信提示、预览、编辑确认、差异展示、撤销、版本历史、人工审批和回滚机制发现和处理。

  1. 如果上线,如何监控成本、延迟和质量?

记录 token、费用、模型、Prompt 版本、P95 延迟、错误率、fallback、eval 分数、用户反馈、采纳率和安全拦截。

  1. 下一步最值得改进的 3 件事是什么?

参考答案应来自评测和失败分析,而不是泛泛而谈。常见优先级:补 eval、优化检索和引用、加强权限和 HITL、降低成本、改善前端状态机。