我正在使用集成方法(随机森林、xgbclassifier 等)进行分类。
一个重要方面是特征重要性预测,如下所示:
Importance
Feature-A 0.25
Feature-B 0.09
Feature-C 0.08
.......
该模型的准确度得分约为 0.85;显然 Feature-A 非常重要,所以我决定删除 Feature-A 并重新计算。
然而,在移除 Feature-A 之后,我仍然发现了一个不错的性能,准确度在 0.79 左右。
这对我来说没有意义,因为 Feature-A 为模型贡献了 25%,如果去掉,为什么准确率几乎不会受到影响?
我知道集成方法具有将“弱”特征组合成“强”特征的优势,所以准确度得分主要依赖于聚合,对重要特征删除不太敏感?
谢谢