1

我想学习一个具有合理离散目标属性的决策树,该属性具有 5 个可能的不同值。但是,有一些离散的高基数输入属性(1000 种不同的可能字符串值),我想知道包含它们是否有意义。在包含一个属性来训练决策树时,最大基数应该是多少?

4

1 回答 1

1

没有最大基数,没有。当然,您可以省略实际未出现在数据中的值。

您将不得不使用直接处理多标签分类特征的 RDF 实现,而不是将它们转换为一系列二进制指标特征。

对于具有 N 个值的分类特征,该特征有 2^N - 2 个可能的决策规则,这太多了,无法考虑。我使用的启发式方法是在将数据除以 N 个分类特征值时计算目标的熵。然后按熵对值进行排序,并通过考虑该列表的前缀来评估您获得的 N-2 条规则。

于 2014-01-31T21:08:14.650 回答