r - 我们如何将自定义函数作为参数发送到分布式R中的foreach？

翻译自：https://stackoverflow.com/questions/31808541 2015-08-04T11:50:14.933

55 次

在 R 分布式数据框中，我正在尝试使用时间戳对数据进行子集化，在数据框的子集中，我想用特定列的最常见值填充“NA”，或者我想使用定义的自定义函数来填充'NA's

foreach(i, 1:npartitions(testset_dr),
    init<-function(input = splits(testset_dr,i),uniques = uniques,output=splits(filledDF, i), index=i){
      output$hub = 'ga'
      for(i in 1:length(uniques))
      {
        lookup.subset <- subset(input,input$lookup == uniques[i])
        for(j in 1:ncol(lookup.subset)){
          output <- rbind(output,lookup.subset)
        }
      }
      update(output)
    })

数据集如下

ti X1 X2
t1 1  2
t1 2  2
t1 na 1
t1 1  na
t2 1  1
t2 1  1
t2 1  1
t2 na 1

基于 t1 的子集

t1 1  2
t1 2  2
t1 na 1
t1 1  na

基于 t2 的子集

从试图用该列的频繁出现值替换 NA 的两个子集中

并且预期的输出是

r - 我们如何将自定义函数作为参数发送到分布式R中的foreach？

0 回答 0

Related

Reference