我在一个相当小的数据集(即 11 个变量中的 28 个对象)上对 100,000 个分类树进行了随机森林分析。
然后我绘制了变量重要性的图
在结果图中,对于至少一个重要变量,%IncMSE 和 IncNodePurity 之间存在很大的不匹配。事实上,该变量在前者中的重要性似乎排名第七(即 %IncMSE<0),但在后者中排名第三。
谁能告诉我我应该如何解释这种不匹配?
所讨论的变量与另一个变量显着相关,该变量在两个图中始终排在第二位。这可能是一个线索吗?
我在一个相当小的数据集(即 11 个变量中的 28 个对象)上对 100,000 个分类树进行了随机森林分析。
然后我绘制了变量重要性的图
在结果图中,对于至少一个重要变量,%IncMSE 和 IncNodePurity 之间存在很大的不匹配。事实上,该变量在前者中的重要性似乎排名第七(即 %IncMSE<0),但在后者中排名第三。
谁能告诉我我应该如何解释这种不匹配?
所讨论的变量与另一个变量显着相关,该变量在两个图中始终排在第二位。这可能是一个线索吗?