在 R 分布式数据框中,我正在尝试使用时间戳对数据进行子集化,在数据框的子集中,我想用特定列的最常见值填充“NA”,或者我想使用定义的自定义函数来填充'NA's
foreach(i, 1:npartitions(testset_dr),
init<-function(input = splits(testset_dr,i),uniques = uniques,output=splits(filledDF, i), index=i){
output$hub = 'ga'
for(i in 1:length(uniques))
{
lookup.subset <- subset(input,input$lookup == uniques[i])
for(j in 1:ncol(lookup.subset)){
output <- rbind(output,lookup.subset)
}
}
update(output)
})
数据集如下
ti X1 X2
t1 1 2
t1 2 2
t1 na 1
t1 1 na
t2 1 1
t2 1 1
t2 1 1
t2 na 1
基于 t1 的子集
t1 1 2
t1 2 2
t1 na 1
t1 1 na
基于 t2 的子集
t2 1 1
t2 1 1
t2 1 1
t2 na 1
从试图用该列的频繁出现值替换 NA 的两个子集中
并且预期的输出是
ti X1 X2
t1 1 2
t1 2 2
t1 1 1
t1 1 2
t2 1 1
t2 1 1
t2 1 1
t2 1 1