machine-learning - 具有高基数属性的决策树

Question

我想学习一个具有合理离散目标属性的决策树，该属性具有 5 个可能的不同值。但是，有一些离散的高基数输入属性（1000 种不同的可能字符串值），我想知道包含它们是否有意义。在包含一个属性来训练决策树时，最大基数应该是多少？

score 1 · Accepted Answer

没有最大基数，没有。当然，您可以省略实际未出现在数据中的值。

您将不得不使用直接处理多标签分类特征的 RDF 实现，而不是将它们转换为一系列二进制指标特征。

对于具有 N 个值的分类特征，该特征有 2^N - 2 个可能的决策规则，这太多了，无法考虑。我使用的启发式方法是在将数据除以 N 个分类特征值时计算目标的熵。然后按熵对值进行排序，并通过考虑该列表的前缀来评估您获得的 N-2 条规则。

1 回答 1