参考答案

核对日期：2026-05-13。

1. 阶段练习参考方向

1.1 任务识别

问题	类型	判断理由
预测订单金额	回归	输出连续数值
判断用户是否会流失	分类	输出离散类别或概率
把用户分成若干群	聚类	没有标签，按相似性分组
根据固定规则审批报销	不适合 ML	规则清晰，风险高，确定性流程更合适
总结一篇文章	不适合传统 ML	更适合 LLM 文本生成或摘要任务

1.2 数据切分

用户行为日志通常应按时间切分：

训练集：较早历史区间
验证集：训练集之后的一段时间
测试集：最接近未来线上场景的一段时间

关键要求：

特征窗口必须早于标签窗口。
测试集不能随机混入未来数据。
如果业务有季节性，测试集要覆盖关键周期。
同一用户的泄漏要评估：有些任务允许跨用户时间切分，有些要按用户隔离。

1.3 指标选择

任务	推荐指标	原因
欺诈识别	Recall、Precision、PR-AUC、人工复核量	漏报和误报成本都高，类别通常极不平衡
垃圾邮件识别	Precision、Recall、F1	误杀正常邮件和漏掉垃圾邮件都要权衡
销售额预测	MAE、RMSE、MAPE	连续值预测，关注误差大小和大误差
商品搜索排序	NDCG、MRR、CTR、转化率	排序质量和用户行为相关

1.4 模型对比

输出表应至少包含：

模型	训练指标	验证指标	测试指标	主要失败样例
Logistic Regression	baseline	baseline	baseline	非线性边界
Decision Tree	可能训练高	验证可能下降	需剪枝	过拟合
Random Forest / GBDT	通常更强	需调参	看泛化	长尾样本

不要只比较最高分。要说明：

哪个模型是 baseline。
改进模型提升了什么指标。
是否引入更高复杂度和解释成本。
错误样例集中在哪些人群或场景。

2. 项目评分样例

高分 ML 项目应具备：

标签定义清晰，和业务目标一致。
数据切分能模拟未来线上使用。
特征只使用预测时可获得的信息。
至少有 baseline 和一个改进模型。
指标选择符合业务成本。
失败样例按人群、时间、类别或输入质量分桶。

不合格表现：

随机切分时间序列数据导致时间穿越。
只报 accuracy，不看类别不平衡。
没有 baseline，无法判断模型是否真的有价值。
模型分数直接触发高风险业务动作。

3. 验收题参考答案

监督学习和无监督学习有什么区别？

监督学习有标签，目标是学习输入到标签的映射；无监督学习没有标签，目标是发现结构，如聚类、降维或异常模式。

回归和分类分别解决什么问题？

回归预测连续数值，例如金额、时长、评分；分类预测离散类别，例如是否流失、是否欺诈、邮件是否垃圾。

为什么要分训练集、验证集、测试集？

训练集用于学习参数，验证集用于调参和选择模型，测试集用于最终估计泛化能力。三者分离能减少过拟合和指标虚高。

类别不平衡时 accuracy 为什么会误导？

如果 99% 样本是负类，模型全部预测负类也有 99% accuracy，但对少数正类完全无用。应看 precision、recall、F1、PR-AUC 和混淆矩阵。

Precision 和 Recall 分别适合什么业务风险？

Precision 关注预测为正的结果有多少是真的，适合误报成本高的场景；Recall 关注真实正类找回多少，适合漏报成本高的场景。很多业务要结合阈值和人工复核权衡。

什么是数据泄漏？举一个时间穿越例子。

数据泄漏是训练或评测时使用了线上预测时不可获得的信息。时间穿越例子：预测用户本月是否流失，却使用了月底之后的客服记录作为特征。

为什么需要 baseline？

Baseline 提供最低可比较标准。没有 baseline，就不知道复杂模型是否真的优于简单规则、历史均值或业务现状。

过拟合和欠拟合分别如何识别？

过拟合表现为训练集好、验证或测试差；欠拟合表现为训练集和验证集都差。前者通常模型太复杂或数据泄漏，后者可能特征不足、模型太弱或训练不够。

传统 ML 什么时候比 LLM 更合适？

结构化数据预测、低延迟、低成本、高可解释、固定标签任务通常更适合传统 ML。例如风控评分、流失预测、库存预测。

模型输出分数后，业务系统还需要做什么？

需要阈值策略、人工复核、权限控制、解释展示、监控、反馈闭环、灰度上线和回滚。分数只是决策输入，不应无条件自动执行高风险动作。

1. 阶段练习参考方向​

1.1 任务识别​

1.2 数据切分​

1.3 指标选择​

1.4 模型对比​

2. 项目评分样例​

3. 验收题参考答案​