machine-learning - 随机森林：%IncMSE 和 %NodePurity 不匹配

Question

我在一个相当小的数据集（即 11 个变量中的 28 个对象）上对 100,000 个分类树进行了随机森林分析。

然后我绘制了变量重要性的图

在结果图中，对于至少一个重要变量，%IncMSE 和 IncNodePurity 之间存在很大的不匹配。事实上，该变量在前者中的重要性似乎排名第七（即 %IncMSE<0），但在后者中排名第三。

谁能告诉我我应该如何解释这种不匹配？

所讨论的变量与另一个变量显着相关，该变量在两个图中始终排在第二位。这可能是一个线索吗？

score 1 · Accepted Answer

第一张图显示，如果通过随机排列为变量赋值，则 MSE 会增加多少。值越高，变量重要性越高。

另一方面，节点纯度通过基尼指数来衡量，这是该变量拆分前后 RSS 之间的差异。

由于变量重要性标准的概念在两种情况下不同，因此您对不同变量有不同的排名。

没有固定的标准来选择可变重要性的“最佳”度量，这取决于您手头的问题。

1 回答 1