参考答案
核对日期:2026-05-13。
1. 阶段练习参考方向
1.1 项目需求文档
合格 PRD 应包含:
- 目标用户和使用频率。
- 当前流程和痛点。
- AI 介入点以及不介入的环节。
- MVP 范围和非目标。
- 成功指标和失败指标。
- 数据、权限、日志和安全边界。
- 评测集和上线门禁。
不要把 PRD 写成模型功能清单,要写成业务任务流。
1.2 架构图
架构图至少体现:
用户 -> 前端状态机 -> API -> 模型网关 -> RAG/工具/模型
-> 日志/trace
-> eval/反馈
-> 权限/审计
同时画出失败路径:模型失败、检索无证据、工具权限不足、用户取消、人工审批拒绝和回滚。
1.3 评测集
30 条 eval 建议分布:
- 12 条正常任务。
- 6 条边界任务。
- 4 条拒答任务。
- 5 条安全负例。
- 3 条历史失败或人工构造失败。
每条包含输入、期望行为、评分标准、风险等级、标签和是否需要引用。
1.4 安全评审
安全评审应回答:
- 哪些输入不可信。
- 哪些数据不能进入模型。
- 工具权限如何分级。
- 哪些动作需要人工确认。
- 日志和缓存如何脱敏。
- 注入、越权、泄漏如何测试。
- 出事故如何停用和回滚。
1.5 作品集答辩
10 分钟答辩要避免现场随机生成不可控输出。建议固定 demo 样例:
- 2 分钟:用户、场景、价值和非目标。
- 3 分钟:架构、数据流、模型流、权限流。
- 2 分钟:eval 结果、失败样例和改进。
- 2 分钟:安全、成本、灰度和回滚。
- 1 分钟:下一步计划。
2. 项目评分样例
高分综合项目应具备:
- 真实任务场景,不只是聊天框。
- 可运行 MVP 或清晰伪代码。
- 文档包含 PRD、架构、评测、安全、成本和运维。
- eval 有正常、边界、拒答、安全和失败样例。
- 输出可追溯,有 trace、引用或工具轨迹。
- 有明确的人类确认、回滚和 kill switch。
- 能解释技术取舍和下一步。
不合格表现:
- 堆砌 RAG、Agent、LLMOps 名词,但链路不清。
- 没有评测和失败样例。
- 没有安全评审。
- 演示依赖临场随机输出。
- README 只有运行命令,没有设计说明。
3. 验收题参考答案
- 你的项目为什么需要 AI,而不是普通规则或传统软件?
因为任务包含非结构化输入、语义理解、生成、检索或动态工具选择,固定规则难以覆盖。但仍要说明哪些部分继续使用规则和 Workflow。
- 目标用户是谁,任务是什么?
答案应具体到角色、频率、输入、输出和成功标准。例如“客服主管每天审核 80 条复杂工单回复草稿,目标是减少初稿时间并保持合规”。
- 你为什么选择 RAG、Workflow 或 Agent?
RAG 用于需要外部知识和引用;Workflow 用于路径固定和高可控流程;Agent 用于路径不固定、需要根据工具反馈迭代的任务。选择必须和风险匹配。
- 你的系统成功标准是什么?
应包含任务质量、用户采用、效率、成本、延迟、安全和失败率。例如引用通过率、采纳率、平均处理时长、P95 延迟和安全负例通过率。
- 你的评测集覆盖了哪些正常、边界和安全样例?
应说明样例分布、标签、期望行为和评分标准,并展示至少几个失败样例如何进入回归集。
- 你的失败样例说明了什么?
失败样例应能定位问题层级:数据缺失、检索失败、Prompt 不清、模型能力不足、工具错误、权限问题或 UX 误导。
- 安全边界在哪里,哪些动作需要人工确认?
安全边界包括用户输入、RAG 文档、模型输出、工具调用、日志和供应商。资金、删除、对外发送、权限变更和合规承诺必须人工确认。
- 如果模型输出错误,用户如何发现和回退?
通过引用、置信提示、预览、编辑确认、差异展示、撤销、版本历史、人工审批和回滚机制发现和处理。
- 如果上线,如何监控成本、延迟和质量?
记录 token、费用、模型、Prompt 版本、P95 延迟、错误率、fallback、eval 分数、用户反馈、采纳率和安全拦截。
- 下一步最值得改进的 3 件事是什么?
参考答案应来自评测和失败分析,而不是泛泛而谈。常见优先级:补 eval、优化检索和引用、加强权限和 HITL、降低成本、改善前端状态机。