我正在使用随机森林来估计许多预测变量的重要性 (%IncMSE)。之后,我使用除一个之外的所有预测变量的组合,并再次计算它们的重要性。即使只使用两个预测变量,RandomForest 在理论上也有效,但我想知道如果 mtry 参数设置为 1 是否有意义。如果我是正确的,这意味着在每次迭代中随机森林只适合树两个预测器之一。如果我只需要制作一个只有两个预测变量的模型,随机森林就不是我的首选,但我不知道在同一篇论文中使用两个不同的统计数据来完成类似任务是否明智。你认为我也应该使用带有两个预测变量的随机森林吗?或者其他模型会更合适?谢谢
问问题
1717 次
2 回答
1
是的,这是随机森林的正常操作。在每个节点上,它可能只考虑所有可能特征的一个子集进行拆分。如果您有 2 个功能,是的,它每次都会随机使用一个或另一个来适应。
如果您将每棵树都安装在同一个训练集上,这实际上非常重要。没有这个,每棵树都是一样的。也就是说,您可以通过考虑一组不同的特征或不同的数据子集来获得不同的树。
RDF 是否合适取决于数据的性质。你有分类特征吗?是的,与其他算法相比,这是一个不错的选择。决策边界可能不是轴对齐的吗?那么不是一个好的选择。虽然 RDF 的变体可以计算非对齐决策边界,但 R 不会。
试试看,你会得到什么样的评估指标?
于 2014-06-27T11:05:42.333 回答
0
我认为你担心是对的。
其中一些森林算法的工作方式是衡量选择变量进行拆分的次数,以及在树中的哪个点。
如果变量选择是完全随机的,那么这个统计数据将完全没有意义。
如果统计数据是使用加扰方法计算的——随机化一个特征的值并计算性能差异——这可能不是什么大问题,但很难说。
您可能想使用另一种方法来衡量重要性,或者至少进行比较。
于 2015-05-19T19:41:24.120 回答