machine-learning - 决策树熵计算目标

Question

我发现了两种类型的几个例子。

单一特征

给定一个只有两个项目类的数据。例如只有蓝色和黄色的球。即在这种情况下我们只有一个特征是颜色。这是显示适用于熵的“分而治之”规则的明显示例。但这对于任何预测或分类问题都是毫无意义的，因为如果我们有一个只有一个特征的对象并且值是已知的，我们不需要一棵树来确定“这个球是黄色的”。

多种功能

给定具有多个特征的数据和要预测的特征（以训练数据而闻名）。我们可以根据每个特征的最小平均熵来计算谓词。更贴近生活，不是吗？在我没有尝试实现算法之前，我很清楚。

而现在我的脑海里有一个碰撞。

如果我们相对于已知特征（每个节点一个）计算熵，那么只有当未知特征严格依赖于每个已知特征时，我们才会在使用树进行分类时得到有意义的结果。否则，单个未绑定的已知特征可能会破坏所有以错误方式驱动决策的预测。但是，如果我们相对于我们想要在分类时预测的特征值计算熵，我们将返回到第一个毫无意义的示例。这样，节点使用哪个已知功能没有区别......

还有一个关于建树过程的问题。

我是否应该只计算已知特征的熵，并且只相信所有已知特征都与未知特征绑定？或者也许我应该计算未知特征（以训练数据已知）的熵来确定哪个特征更影响结果？

score 0 · Accepted Answer

几年前我遇到了同样的问题（可能是类似的编程任务）：我是根据完整的特征集、分支的相关特征还是某个级别的相关特征来计算熵？

结果是这样的：在决策树中，它归结为比较不同分支之间的熵以确定最佳分支。比较需要相等的基集，即当你想比较两个熵值时，它们必须基于相同的特征集。

对于您的问题，您可以使用与要比较的分支集相关的特征，只要您知道使用此解决方案无法比较不同分支集之间的熵。否则，请使用整个功能集。

（免责声明：以上解决方案是几年前导致大约一个小时思考的问题的思维协议。希望我做对了一切。）

PS：小心汽车数据集！;)

machine-learning - 决策树熵计算目标

单一特征

多种功能

1 回答 1

Related

Reference