61

我不确定如何遍历每一列以用列平均值替换 NA 值。当我尝试使用以下内容替换一列时,它运行良好。

Column1[is.na(Column1)] <- round(mean(Column1, na.rm = TRUE))

循环列的代码不起作用:

for(i in 1:ncol(data)){
    data[i][is.na(data[i])] <- round(mean(data[i], na.rm = TRUE))
}

这些值不会被替换。有人可以帮我吗?

4

12 回答 12

77

对代码进行相对简单的修改应该可以解决问题:

for(i in 1:ncol(data)){
  data[is.na(data[,i]), i] <- mean(data[,i], na.rm = TRUE)
}
于 2014-09-14T17:07:27.807 回答
60

如果DF是您的数字列数据框:

library(zoo)
na.aggregate(DF)

添加:

仅使用 R 的基础定义一个函数,该函数针对一列执行此操作,然后应用于每一列:

NA2mean <- function(x) replace(x, is.na(x), mean(x, na.rm = TRUE))
replace(DF, TRUE, lapply(DF, NA2mean))

如果可以覆盖输入,则最后一行可以替换为以下内容:

DF[] <- lapply(DF, NA2mean)
于 2014-09-14T20:33:32.103 回答
19

也有使用imputeTS包的快速解决方案:

library(imputeTS)
na_mean(yourDataFrame)
于 2018-05-04T00:20:04.853 回答
16

dplyrmutate_all可能mutate_at在这里有用:

library(dplyr)                                                             

set.seed(10)                                                               
df <- data.frame(a = sample(c(NA, 1:3)    , replace = TRUE, 10),           
                 b = sample(c(NA, 101:103), replace = TRUE, 10),                            
                 c = sample(c(NA, 201:203), replace = TRUE, 10))                            

df         

#>     a   b   c
#> 1   2 102 203
#> 2   1 102 202
#> 3   1  NA 203
#> 4   2 102 201
#> 5  NA 101 201
#> 6  NA 101 202
#> 7   1  NA 203
#> 8   1 101  NA
#> 9   2 101 203
#> 10  1 103 201

df %>% mutate_all(~ifelse(is.na(.x), mean(.x, na.rm = TRUE), .x))          

#>        a       b        c
#> 1  2.000 102.000 203.0000
#> 2  1.000 102.000 202.0000
#> 3  1.000 101.625 203.0000
#> 4  2.000 102.000 201.0000
#> 5  1.375 101.000 201.0000
#> 6  1.375 101.000 202.0000
#> 7  1.000 101.625 203.0000
#> 8  1.000 101.000 202.1111
#> 9  2.000 101.000 203.0000
#> 10 1.000 103.000 201.0000

df %>% mutate_at(vars(a, b),~ifelse(is.na(.x), mean(.x, na.rm = TRUE), .x))

#>        a       b   c
#> 1  2.000 102.000 203
#> 2  1.000 102.000 202
#> 3  1.000 101.625 203
#> 4  2.000 102.000 201
#> 5  1.375 101.000 201
#> 6  1.375 101.000 202
#> 7  1.000 101.625 203
#> 8  1.000 101.000  NA
#> 9  2.000 101.000 203
#> 10 1.000 103.000 201
于 2018-11-16T22:06:49.160 回答
15

要添加替代方案,使用@akrun 的示例数据,我将执行以下操作:

d1[] <- lapply(d1, function(x) { 
  x[is.na(x)] <- mean(x, na.rm = TRUE)
  x
})
d1
于 2014-09-14T17:43:24.783 回答
11

lapply可以用来代替for循环。

d1[] <- lapply(d1, function(x) ifelse(is.na(x), mean(x, na.rm = TRUE), x))

与 for 循环相比,这实际上并没有任何优势,尽管如果您也有非数字列可能会更容易,在这种情况下

d1[sapply(d1, is.numeric)] <- lapply(d1[sapply(d1, is.numeric)], function(x) ifelse(is.na(x), mean(x, na.rm = TRUE), x))

几乎一样容易。

于 2016-12-17T15:51:48.040 回答
8

你也可以试试:

 cM <- colMeans(d1, na.rm=TRUE)
 indx <- which(is.na(d1), arr.ind=TRUE)
 d1[indx] <- cM[indx[,2]]
 d1  

数据

set.seed(42)
d1 <- as.data.frame(matrix(sample(c(NA,0:5), 5*10, replace=TRUE), ncol=10))
于 2014-09-14T17:19:45.973 回答
7

使用tidyr 的 replace_na的单线是

library(tidyr)
replace_na(mtcars,as.list(colMeans(mtcars,na.rm=T)))

如果您df的列是非数字的,则这比单行需要更多的工作。

mean_to_fill <- select_if(ungroup(df), is.numeric) %>%
 colMeans(na.rm=T)

bind_cols(select(df, group1, group2, group3),
          select_if(ungroup(df), is.numeric) %>% 
            tidyr::replace_na(as.list(mean_to_fill))
          ) 
于 2019-05-26T22:29:12.457 回答
5

简单地使用 Zoo,它将简单地用列值的平均值替换所有 NA 值:

library(zoo)
na.aggregate(data) 
于 2019-06-20T14:39:27.813 回答
3
# Lets say I have a dataframe , df as following -
df <- data.frame(a=c(2,3,4,NA,5,NA),b=c(1,2,3,4,NA,NA))

# create a custom function
fillNAwithMean <- function(x){
    na_index <- which(is.na(x))        
    mean_x <- mean(x, na.rm=T)
    x[na_index] <- mean_x
    return(x)
}

(df <- apply(df,2,fillNAwithMean))
   a   b
2.0 1.0
3.0 2.0
4.0 3.0
3.5 4.0
5.0 2.5
3.5 2.5
于 2017-05-24T18:39:35.183 回答
1

类似于@Thomas指出的答案,这也可以使用ifelse()R的方法来完成:

for(i in 1:ncol(data)){
  data[,i]=ifelse(is.na(data[,i]),
                  ave(data[,i],FUN=function(y) mean(y, na.rm = TRUE)),
                  data[,i])
}

其中, 参数ifelse(TEST, YES , NO):-

TEST - 要检查的逻辑条件

YES - 如果条件为真则执行

NO - 否则当条件为 False

并且ave(x, ..., FUN = mean)是 R 中用于计算 x[] 子集平均值的方法

于 2017-03-28T06:07:27.230 回答
0

使用 data.table 包,您可以使用该set()函数并遍历列,并用NA您选择的聚合或值替换 s 或任何您喜欢的东西(这里:意思):

require(data.table)

# data
dt = copy(iris[ ,-5])
setDT(dt)
dt[1:4, Sepal.Length := NA] # introduce NAs

# replace NAs with mean (or whatever function you like)
for (j in seq_along(names(dt))) {
  set(dt,
      i = which(is.na(dt[[j]])),
      j = j, 
      value = mean(dt[[j]], na.rm = TRUE))
}
于 2020-10-10T18:15:57.263 回答