python - CatBoost：我们是否过度拟合？

Question

我们的团队目前正在使用 CatBoost 开发信用评分模型，我们目前的流程是...

但是，我担心我们可能会过度拟合第 4 步中的测试集。

在第 4 步中，我们是否应该只在训练上重新拟合模型并在不进行调整的情况下有效（即，使用第 3 步中选择的特征和超参数）？

由于我们的超时采样方案，执行第 4 步的动机是根据更新的数据训练模型。

score 2 · Accepted Answer

第 4 步不属于机器学习的最佳实践。

创建测试集时，您需要将其放在一边，仅在最后使用它来评估您的模型在进行预测方面的成功程度。不要使用测试集来通知超参数调整！如果这样做，您将过度拟合数据。

尝试使用交叉验证：

1 回答 1