参考答案

核对日期：2026-05-13。

1. 阶段练习参考方向

1.1 项目需求文档

合格 PRD 应包含：

目标用户和使用频率。
当前流程和痛点。
AI 介入点以及不介入的环节。
MVP 范围和非目标。
成功指标和失败指标。
数据、权限、日志和安全边界。
评测集和上线门禁。

不要把 PRD 写成模型功能清单，要写成业务任务流。

1.2 架构图

架构图至少体现：

用户 -> 前端状态机 -> API -> 模型网关 -> RAG/工具/模型
                         -> 日志/trace
                         -> eval/反馈
                         -> 权限/审计

同时画出失败路径：模型失败、检索无证据、工具权限不足、用户取消、人工审批拒绝和回滚。

1.3 评测集

30 条 eval 建议分布：

12 条正常任务。
6 条边界任务。
4 条拒答任务。
5 条安全负例。
3 条历史失败或人工构造失败。

每条包含输入、期望行为、评分标准、风险等级、标签和是否需要引用。

1.4 安全评审

安全评审应回答：

哪些输入不可信。
哪些数据不能进入模型。
工具权限如何分级。
哪些动作需要人工确认。
日志和缓存如何脱敏。
注入、越权、泄漏如何测试。
出事故如何停用和回滚。

1.5 作品集答辩

10 分钟答辩要避免现场随机生成不可控输出。建议固定 demo 样例：

2 分钟：用户、场景、价值和非目标。
3 分钟：架构、数据流、模型流、权限流。
2 分钟：eval 结果、失败样例和改进。
2 分钟：安全、成本、灰度和回滚。
1 分钟：下一步计划。

2. 项目评分样例

高分综合项目应具备：

真实任务场景，不只是聊天框。
可运行 MVP 或清晰伪代码。
文档包含 PRD、架构、评测、安全、成本和运维。
eval 有正常、边界、拒答、安全和失败样例。
输出可追溯，有 trace、引用或工具轨迹。
有明确的人类确认、回滚和 kill switch。
能解释技术取舍和下一步。

不合格表现：

堆砌 RAG、Agent、LLMOps 名词，但链路不清。
没有评测和失败样例。
没有安全评审。
演示依赖临场随机输出。
README 只有运行命令，没有设计说明。

3. 验收题参考答案

你的项目为什么需要 AI，而不是普通规则或传统软件？

因为任务包含非结构化输入、语义理解、生成、检索或动态工具选择，固定规则难以覆盖。但仍要说明哪些部分继续使用规则和 Workflow。

目标用户是谁，任务是什么？

答案应具体到角色、频率、输入、输出和成功标准。例如“客服主管每天审核 80 条复杂工单回复草稿，目标是减少初稿时间并保持合规”。

你为什么选择 RAG、Workflow 或 Agent？

RAG 用于需要外部知识和引用；Workflow 用于路径固定和高可控流程；Agent 用于路径不固定、需要根据工具反馈迭代的任务。选择必须和风险匹配。

你的系统成功标准是什么？

应包含任务质量、用户采用、效率、成本、延迟、安全和失败率。例如引用通过率、采纳率、平均处理时长、P95 延迟和安全负例通过率。

你的评测集覆盖了哪些正常、边界和安全样例？

应说明样例分布、标签、期望行为和评分标准，并展示至少几个失败样例如何进入回归集。

你的失败样例说明了什么？

失败样例应能定位问题层级：数据缺失、检索失败、Prompt 不清、模型能力不足、工具错误、权限问题或 UX 误导。

安全边界在哪里，哪些动作需要人工确认？

安全边界包括用户输入、RAG 文档、模型输出、工具调用、日志和供应商。资金、删除、对外发送、权限变更和合规承诺必须人工确认。

如果模型输出错误，用户如何发现和回退？

通过引用、置信提示、预览、编辑确认、差异展示、撤销、版本历史、人工审批和回滚机制发现和处理。

如果上线，如何监控成本、延迟和质量？

记录 token、费用、模型、Prompt 版本、P95 延迟、错误率、fallback、eval 分数、用户反馈、采纳率和安全拦截。

下一步最值得改进的 3 件事是什么？

参考答案应来自评测和失败分析，而不是泛泛而谈。常见优先级：补 eval、优化检索和引用、加强权限和 HITL、降低成本、改善前端状态机。

1. 阶段练习参考方向​

1.1 项目需求文档​

1.2 架构图​

1.3 评测集​

1.4 安全评审​

1.5 作品集答辩​

2. 项目评分样例​

3. 验收题参考答案​