如何使用randomForest带有观察权重的 R 包?我知道这个包中没有这样的选项。我有两个问题:
有没有使用
randomForest包解决这个问题的方法?目前,我正在从以权重为概率的数据中抽取样本,这样我至少可以模拟它:m = dim(data)[1] sample(data, m, replace=TRUE, prob=weights)它有效还有其他(更好的)解决方案吗?
是否有任何替代
randomForest方案。我找到了party包(cforest),但它在内存管理方面很糟糕(或者我不能像使用randomForest包的方式那样使用它)。我有大约 20 万个观察值和 30-40 个变量。
编辑:
很抱歉没有澄清细节。我正在使用这个randomForest包来解决回归问题(不是分类)。这是一个时间序列,每个观察都有其重要性。稍后,此权重用于确定跨测试观察的模型性能。y 变量是连续的。