46

我正在尝试使用随机森林包在 R 中进行分类。

列出的变量重要性度量是:

  • 第 0 类变量 x 的平均原始重要性得分
  • 第 1 类变量 x 的平均原始重要性得分
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

现在我知道这些“意味着”是什么,就像我知道它们的定义一样。我想知道的是如何使用它们。

我真正想知道的是,这些值仅在它们的准确程度、什么是好值、什么是坏值、最大值和最小值等方面意味着什么。

如果一个变量有一个高值,MeanDecreaseAccuracy或者MeanDecreaseGini这意味着它是重要的还是不重要的?此外,有关原始分数的任何信息也可能很有用。我想知道与这些数字的应用相关的所有信息。

使用“错误”、“求和”或“置换”等词的解释比不涉及任何讨论随机森林如何工作的更简单的解释更有帮助。

就像我希望有人向我解释如何使用收音机一样,我不希望解释涉及收音机如何将无线电波转换为声音。

4

3 回答 3

28

使用“错误”、“求和”或“置换”等词的解释比不涉及任何讨论随机森林如何工作的更简单的解释更有帮助。

就像我希望有人向我解释如何使用收音机一样,我不希望解释涉及收音机如何将无线电波转换为声音。

您如何解释 WKRP 100.5 FM 中的数字“意味着”什么而不涉及波频率的讨厌技术细节?坦率地说,即使您了解一些技术术语,随机森林的参数和相关性能问题也很难理解。

这是我对一些答案的看法:

-0 类变量 x 的平均原始重要性得分

- 第 1 类变量 x 的平均原始重要性分数

从 Random Forest网页简化,原始重要性分数衡量特定预测变量在成功分类数据方面比随机更有帮助。

-MeanDecreaseAccuracy

我认为这仅在R 模块中,并且我相信它可以衡量在模型中包含此预测器多少会减少分类错误。

-MeanDecreaseGini

当用于描述社会的收入分配时,基尼被定义为“不公平”,或者在基于树的分类中衡量“节点杂质”。低 Gini(即 Gini 的较高降低)意味着特定的预测变量在将数据划分为已定义的类时发挥了更大的作用。如果不谈论分类树中的数据根据​​预测变量的值在各个节点处拆分这一事实,这很难描述。我不太清楚这如何转化为更好的性能。

于 2009-05-08T13:09:40.257 回答
24

对于您的直接关注:更高的值意味着变量更重要。对于您提到的所有措施,这应该是正确的。

随机森林为您提供了非常复杂的模型,因此解释重要性度量可能很棘手。如果您想轻松了解变量在做什么,请不要使用 RF。请改用线性模型或(非集成)决策树。

你说:

使用“错误”、“求和”或“置换”等词的解释比不涉及任何讨论随机森林如何工作的更简单的解释更有帮助。

除非您深入了解随机森林,否则要解释比上述更多的内容将非常困难。我假设您在抱怨手册或 Breiman 手册中的部分:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

为了弄清楚一个变量有多重要,他们用随机垃圾填充它(“置换”它),然后看看预测准确性降低了多少。MeanDecreaseAccuracy 和 MeanDecreaseGini 以这种方式工作。我不确定原始重要性分数是多少。

于 2009-07-22T06:54:54.057 回答
6

随机森林的可解释性有点困难。虽然 RF 是一个非常强大的分类器,但它以民主的方式进行预测。我的意思是你通过获取变量的随机子集和数据的随机子集来构建成百上千棵树,然后构建一棵树。然后对所有未选中的数据进行预测并保存预测。它很健壮,因为它可以很好地处理数据集的变幻莫测(即,它平滑随机的高/低值、偶然的图/样本、以 4 种不同的方式测量同一事物等)。但是,如果您有一些高度相关的变量,则两者似乎都很重要,因为它们并不总是包含在每个模型中。

随机森林的一种潜在方法可能是帮助减少您的预测变量,然后切换到常规 CART 或尝试使用 PARTY 包进行基于推理的树模型。但是,您必须对数据挖掘问题保持警惕,并对参数进行推断。

于 2009-07-28T05:55:28.917 回答