2

我正在使用集成方法(随机森林、xgbclassifier 等)进行分类。

一个重要方面是特征重要性预测,如下所示:

           Importance
Feature-A   0.25
Feature-B   0.09
Feature-C   0.08
.......

该模型的准确度得分约为 0.85;显然 Feature-A 非常重要,所以我决定删除 Feature-A 并重新计算。

然而,在移除 Feature-A 之后,我仍然发现了一个不错的性能,准确度在 0.79 左右。

这对我来说没有意义,因为 Feature-A 为模型贡献了 25%,如果去掉,为什么准确率几乎不会受到影响?

我知道集成方法具有将“弱”特征组合成“强”特征的优势,所以准确度得分主要依赖于聚合,对重要特征删除不太敏感?

谢谢

4

1 回答 1

0

可能存在与特征 A 冗余的其他特征。例如,假设特征 G、H、I 与特征 A 冗余:如果您知道特征 G、H、I 的值,那么特征 A 的值是非常确定。

这将与您的结果一致。如果我们包含特征 A,模型会向我们学习它,因为仅使用特征 A 并忽略特征 G、H、I 很容易获得出色的准确度,因此它将具有出色的准确度,对特征 A 的重要性很高,并且特征 G,H,I 的重要性较低。如果我们排除特征 A,模型仍然可以通过使用特征 G,H,I 获得几乎一样好的准确度,所以它仍然会有很好的准确度(尽管模型可能会变得更复杂,因为 G,H 之间的关系,I 和 class 的关系比 A 和 class 的关系更复杂)。

于 2017-05-24T16:01:40.367 回答