有没有办法在大型(大约 10gb)xdf(revolution R 格式)文件上运行随机森林?显然,我可以尝试 rxReadXdf 并将其转换为数据帧……但我的机器只有 8gb 内存,将来我可能会处理更大的数据集。例如,使用 foreach 循环,我想在我的四核机器上运行 1000 棵树:
#'train.xdf" is a 10gb training data set
rf<- foreach(ntree=rep(250, 4), .combine=combine,
.packages='randomForest') %do%
randomForest(amount2~.,data="train", ntree=ntree, importance=TRUE,
na.action=na.omit, replace=FALSE)
但 randomForest 无法接收“train”(一个 xdf)文件。有没有办法直接在 xdf 上运行随机森林而不读取数据帧?
干杯,agsub