如何使用randomForest
带有观察权重的 R 包?我知道这个包中没有这样的选项。我有两个问题:
有没有使用
randomForest
包解决这个问题的方法?目前,我正在从以权重为概率的数据中抽取样本,这样我至少可以模拟它:m = dim(data)[1] sample(data, m, replace=TRUE, prob=weights)
它有效还有其他(更好的)解决方案吗?
是否有任何替代
randomForest
方案。我找到了party
包(cforest),但它在内存管理方面很糟糕(或者我不能像使用randomForest
包的方式那样使用它)。我有大约 20 万个观察值和 30-40 个变量。
编辑:
很抱歉没有澄清细节。我正在使用这个randomForest
包来解决回归问题(不是分类)。这是一个时间序列,每个观察都有其重要性。稍后,此权重用于确定跨测试观察的模型性能。y 变量是连续的。