tree - 信息增益决策树

Question

如果我在相同数量的节点上有两个决策树，哪个被认为更好？树 1：（F 为假，T 为真）

替代文字

意思是第一个更宽，但第二个更深。

score 6 · Accepted Answer

我知道这个问题已经很老了，但如果你仍然对答案感兴趣，一般来说，更短、更宽的树会“更好”。考虑这样一个事实，即到达内部决策节点“C”需要额外的决策。

您真正需要查看的是每个内部决策节点的熵和增益。熵是特定变量的不确定性或随机性的量。例如，考虑一个具有两个类的分类器，YES和NO（在您的情况下为真或假）。如果一个特定的变量或属性，比如x有 3 个 YES 类的训练样本和 3 个 NO 类的训练样本（总共 6 个），则熵将为 1。这是因为这两个类的数量相同变量并且是您可以获得的最“混淆”。同样，如果x有一个特定类的所有六个训练示例，假设是，那么熵将为 0，因为这个特定变量将是纯的，因此使其成为我们决策树中的叶节点。

熵可以通过以下方式计算：

在此处输入图像描述

现在考虑增益。请注意，在决策树的每一层，我们选择为该节点呈现最佳增益的属性。增益只是通过学习随机变量x的状态而实现的熵的预期减少。增益也称为 Kullback-Leibler 散度。增益可以通过以下方式计算：

Kullback-Leibler 散度

tree - 信息增益决策树

1 回答 1

Related

Reference