0

我和我的同学们,我们正在做一个教育机器学习项目,我们遇到了一个过度拟合的问题,因为我们对数据挖掘非常缺乏经验。

我们的商业案例是关于零售银行业务,我们的目标是根据产品搜索客户目标群体。向客户推荐基于已经购买的产品的特定产品,如股票、基金、存款等。

我们收到了一个包含大约 400 个特征和 150.000 条数据记录的数据集。我们在 Knime 中构建我们的工作流程。我们的工作流程包括以下步骤:

  • 我们探索了数据并定义了目标变量
  • 我们使用缺失值列过滤器来消除所有缺失值最多的列
  • 我们还应用了 Tree Ensemble Workflow 来减少维度

总而言之,我们清理了我们的数据并将其从 400 个变量减少到大约 50 个。对于建模,我们使用一个简单的决策树 - 这里出现了问题:这棵树总是给出 100% 的准确度 - 所以我们假设它是高度过拟合。

我们做错了什么吗?或者我们应该关注什么?

我们希望社区可以为我们提供一些提示或提示。

编辑: 是否有任何资料、论文等如何在数据挖掘工具(例如 knime)中应用交叉销售?我们已经用谷歌搜索了它,但到目前为止我们还没有成功。

4

2 回答 2

1

同意前面的评论:DT 的主要优点是它们的过拟合。

  1. 尝试使决策树更简单(至少减少深度)
  2. 使用集成方法(随机森林甚至 XGBoost)。他们是下一代 DT。
于 2018-02-16T11:20:26.723 回答
1

决策树的问题之一是它们容易过度拟合。您可以进行 Prunning 以降低模型的复杂性,从而通过减少过度拟合来提高预测准确性,也可以尝试调整 Min-sample-per-leaf、Maximum tree depth

于 2018-02-16T08:50:02.800 回答