这是我正在尝试使用foreach包做的事情。我有 600 行和 58000 列的数据集,其中有很多缺失值。
我们需要使用名为“missForest”的包来估算缺失值,其中它不是并行的,一次运行这些数据需要很长时间。所以,我正在考虑将数据分成 7 个数据集(我有 7 个核心),它们具有相同的行数(我的行)和不同数量的 col(标记)。然后使用%dopar%
将数据集并行传递给missForest?
我看不到如何将数据划分为更小的数据集并将这些数据集传递给missForest,然后重新组合输出!
如果你能告诉我怎么做,我会非常感激?
这是一个小例子,来自 BLR 包,展示了我的问题:
library(BLR)
library(missForest)
data(wheat)
X2<- prodNA(X, 0.1)
dim(X2) ## i need to divide X2 to several 7 data frames (ii)
X3<- missForest(X2)
X3$Ximp ## combine ii data frames