如果我在相同数量的节点上有两个决策树,哪个被认为更好?树 1:(F 为假,T 为真)
意思是第一个更宽,但第二个更深。
我知道这个问题已经很老了,但如果你仍然对答案感兴趣,一般来说,更短、更宽的树会“更好”。考虑这样一个事实,即到达内部决策节点“C”需要额外的决策。
您真正需要查看的是每个内部决策节点的熵和增益。 熵是特定变量的不确定性或随机性的量。例如,考虑一个具有两个类的分类器,YES和NO(在您的情况下为真或假)。如果一个特定的变量或属性,比如x有 3 个 YES 类的训练样本和 3 个 NO 类的训练样本(总共 6 个),则熵将为 1。这是因为这两个类的数量相同变量并且是您可以获得的最“混淆”。同样,如果x有一个特定类的所有六个训练示例,假设是,那么熵将为 0,因为这个特定变量将是纯的,因此使其成为我们决策树中的叶节点。
熵可以通过以下方式计算:
现在考虑增益。请注意,在决策树的每一层,我们选择为该节点呈现最佳增益的属性。增益只是通过学习随机变量x的状态而实现的熵的预期减少。增益也称为 Kullback-Leibler 散度。增益可以通过以下方式计算: