我和我的同学们,我们正在做一个教育机器学习项目,我们遇到了一个过度拟合的问题,因为我们对数据挖掘非常缺乏经验。
我们的商业案例是关于零售银行业务,我们的目标是根据产品搜索客户目标群体。向客户推荐基于已经购买的产品的特定产品,如股票、基金、存款等。
我们收到了一个包含大约 400 个特征和 150.000 条数据记录的数据集。我们在 Knime 中构建我们的工作流程。我们的工作流程包括以下步骤:
- 我们探索了数据并定义了目标变量
- 我们使用缺失值列过滤器来消除所有缺失值最多的列
- 我们还应用了 Tree Ensemble Workflow 来减少维度
总而言之,我们清理了我们的数据并将其从 400 个变量减少到大约 50 个。对于建模,我们使用一个简单的决策树 - 这里出现了问题:这棵树总是给出 100% 的准确度 - 所以我们假设它是高度过拟合。
我们做错了什么吗?或者我们应该关注什么?
我们希望社区可以为我们提供一些提示或提示。
编辑: 是否有任何资料、论文等如何在数据挖掘工具(例如 knime)中应用交叉销售?我们已经用谷歌搜索了它,但到目前为止我们还没有成功。