r - 用现有数据替换向量中的缺失数据

Question

我有一个向量（我实际上只是从数据框中检索了各个列），其中缺少数据。我想用向量中的下一个可用数据（或者如果下一个不可用，则为以前的数据）替换丢失的数据。例如，

data <- c(NA, NA, NA, NA, 5, NA, NA, 7, NA, NA)

应该成为

data <- c(5, 5, 5, 5, 5, 7, 7, 7, 7, 7)

我知道这是一种非常具体的填充缺失数据的方法，但我想知道是否有一个优雅的解决方案。我尝试使用which(is.na(data))来获取丢失的索引并which(!is.na(data))获取带有数据的索引，但是即使使用这两个索引列表来操作向量也需要很多混乱的逻辑。我想知道我是否which以任何方式滥用，或者是否有其他内置函数或包可以让我优雅地执行这个逻辑。

感谢您的帮助！

作为参考，只要向量不以一堆 NA 结尾，下面的代码就可以工作，但我必须添加更多逻辑才能使其与原始数据集一起工作。

data <- c(NA, NA, NA, NA, 5, NA, NA, 7)
missingIndeces <- which(is.na(data))
filledIndeces <- which(!is.na(data))
if(length(missingIndeces) > 1) {
    for(j in 1:length(data)) {
        temp <- data[j:length(data)]
        filledData <- which(!is.na(temp))
        if(filledData[1] > 1)
            data[j] <- temp[filledData[1]]
    }
}

score 7 · Accepted Answer

也许使用na.locf...？

library(zoo)
na.locf(na.locf(zoo(data),fromLast = TRUE,na.rm = FALSE),na.rm = FALSE)
 1  2  3  4  5  6  7  8  9 10 
 5  5  5  5  5  7  7  7  7  7

score 1 · Accepted Answer

我想添加下一个使用runnerr cran 包的解决方案。

library(runner)
> fill_run(data, run_for_first = T)
 [1] 5 5 5 5 5 5 5 7 7 7
> rev(fill_run(rev(data), run_for_first = T))
 [1] 5 5 5 5 5 7 7 7 7 7

整个包都经过优化，主要是用cpp编写的。因此提供了很大的效率。

r - 用现有数据替换向量中的缺失数据

2 回答 2

Related

Reference