0

在 R 分布式数据框中,我正在尝试使用时间戳对数据进行子集化,在数据框的子集中,我想用特定列的最常见值填充“NA”,或者我想使用定义的自定义函数来填充'NA's

foreach(i, 1:npartitions(testset_dr),
    init<-function(input = splits(testset_dr,i),uniques = uniques,output=splits(filledDF, i), index=i){
      output$hub = 'ga'
      for(i in 1:length(uniques))
      {
        lookup.subset <- subset(input,input$lookup == uniques[i])
        for(j in 1:ncol(lookup.subset)){
          output <- rbind(output,lookup.subset)
        }
      }
      update(output)
    })

数据集如下

ti X1 X2
t1 1  2
t1 2  2
t1 na 1
t1 1  na
t2 1  1
t2 1  1
t2 1  1
t2 na 1

基于 t1 的子集

t1 1  2
t1 2  2
t1 na 1
t1 1  na

基于 t2 的子集

t2 1  1
t2 1  1
t2 1  1
t2 na 1

从试图用该列的频繁出现值替换 NA 的两个子集中

并且预期的输出是

ti X1 X2
t1 1  2
t1 2  2
t1 1  1
t1 1  2
t2 1  1
t2 1  1
t2 1  1
t2 1  1
4

0 回答 0