我发现了两种类型的几个例子。
单一特征
给定一个只有两个项目类的数据。例如只有蓝色和黄色的球。即在这种情况下我们只有一个特征是颜色。这是显示适用于熵的“分而治之”规则的明显示例。但这对于任何预测或分类问题都是毫无意义的,因为如果我们有一个只有一个特征的对象并且值是已知的,我们不需要一棵树来确定“这个球是黄色的”。
多种功能
给定具有多个特征的数据和要预测的特征(以训练数据而闻名)。我们可以根据每个特征的最小平均熵来计算谓词。更贴近生活,不是吗?在我没有尝试实现算法之前,我很清楚。
而现在我的脑海里有一个碰撞。
如果我们相对于已知特征(每个节点一个)计算熵,那么只有当未知特征严格依赖于每个已知特征时,我们才会在使用树进行分类时得到有意义的结果。否则,单个未绑定的已知特征可能会破坏所有以错误方式驱动决策的预测。但是,如果我们相对于我们想要在分类时预测的特征值计算熵,我们将返回到第一个毫无意义的示例。这样,节点使用哪个已知功能没有区别......
还有一个关于建树过程的问题。
我是否应该只计算已知特征的熵,并且只相信所有已知特征都与未知特征绑定?或者也许我应该计算未知特征(以训练数据已知)的熵来确定哪个特征更影响结果?