1

我正在使用 Scikit-learn Extremely Randomized Trees 算法来获取有关相对特征重要性的信息,并且我对如何对“冗余特征”进行排名有疑问。

如果我有两个相同(冗余)且对分类很重要的特征,则极度随机化的树无法检测到特征的冗余。也就是说,这两个功能都获得了很高的排名。有没有其他方法可以检测到两个特征实际上是多余的?

4

1 回答 1

0

也许您可以提取前 n 个重要特征,然后计算这些特征的成对 Spearman 或 Pearson 相关性,以便仅检测信息量最高的特征的冗余,因为计算所有成对特征相关性(与特征数量成二次方)可能不可行.

不过,可能有更聪明的方法可以通过利用特征相对出现的统计数据作为决策树中的节点来做同样的事情。

于 2013-01-14T00:13:30.063 回答