17

如何使用randomForest带有观察权重的 R 包?我知道这个包中没有这样的选项。我有两个问题:

  1. 有没有使用randomForest包解决这个问题的方法?目前,我正在从以权重为概率的数据中抽取样本,这样我至少可以模拟它:

    m = dim(data)[1]
    sample(data, m, replace=TRUE, prob=weights)
    

    它有效还有其他(更好的)解决方案吗?

  2. 是否有任何替代randomForest方案。我找到了party包(cforest),但它在内存管理方面很糟糕(或者我不能像使用randomForest包的方式那样使用它)。我有大约 20 万个观察值和 30-40 个变量。

编辑:

很抱歉没有澄清细节。我正在使用这个randomForest包来解决回归问题(不是分类)。这是一个时间序列,每个观察都有其重要性。稍后,此权重用于确定跨测试观察的模型性能。y 变量是连续的。

4

2 回答 2

3

我一直在寻找与随机森林中的 Pawel 相同的选项。我发现R中的包“ranger”将它合并到函数“ranger”中(通过参数“case.weights”)。

该软件包于 2016 年 6 月发布,因此非常年轻。

最好的,

于 2016-09-20T21:11:03.870 回答
2

randomForest确实有一个“classwt”参数,应该允许您考虑差异采样概率甚至差异成本。诚然,回归忽略了它也许您应该解释为什么需要使用加权以及您使用的是哪种 y 变量。

于 2012-03-25T19:58:09.737 回答