1

我刚刚开始学习决策树。所以这些问题可能有点傻。

选择根节点的想法有点混乱。为什么我们不能随机选择根节点?它似乎唯一的区别是它会使决策树更长更复杂,但最终会得到相同的结果。

同样作为决策树中特征选择过程的扩展,为什么不能使用特征与目标之间的相关性或卡方检验等简单的方法来确定从哪个特征开始?

4

1 回答 1

0

为什么我们不能随机选择根节点?

我们可以,但这也可以扩展到它的子节点和该子节点的子节点等等......

它似乎唯一的区别是它会使决策树更长更复杂,但最终会得到相同的结果。

树越复杂,它的方差就越高,这意味着两件事:

  • 训练数据集的微小变化会极大地影响三者的形状
  • 它过拟合训练集

这些都不好,即使你在每一步都选择了一个明智的选择,基于熵或基尼杂质指数,你最终可能仍然会得到比你想要的更大的三个。是的,这棵树在训练集上可能有很好的准确性,但它可能会过度拟合训练集。

大多数使用决策树的算法都有自己的方法来对抗这种差异,以一种或另一种方式。如果考虑简单的决策树算法本身,降低方差的方法是先训练树,然后修剪树,使其更小,减少过拟合。随机森林通过对大量树进行平均来解决它,同时随机限制每次必须做出决定时可以考虑分割哪个预测器。

因此,随机选择根节点最终会导致相同的结果,但仅在训练集上,并且只有在过度拟合非常极端以至于树简单地以 100% 准确率预测所有内容时。但是,树越适合训练集,它在测试集上的准确度就越低(通常),我们关心的是测试集上的准确度,而不是训练集上的准确度。

于 2020-07-05T07:44:15.897 回答