0

我有一个数据框 df ,其中有一列包含值(仪表读数)。一些值偶尔会丢失 (NA)。

df 摘录:

row   time      meter_reading
1     03:10:00  26400
2     03:15:00  NA
3     03:20:00  27200
4     03:25:00  28000
5     03:30:00  NA
6     03:35:00  NA
7     03:40:00  30000

我正在尝试做的事情:

如果只有一个连续的 NA,我想插值(例如第 2 行的 na.interpolation)。但是如果有两个或多个连续的 NA,我不希望 R 插值并将值保留为 NA。(例如第 5 行和第 6 行)。

到目前为止,我尝试的是带有 if 条件的循环(for ...)。我的做法:

library("imputeTS")
for(i in 1:(nrow(df))) {
  if(!is.na(df$meter_reading[i]) & is.na(df$meter_reading[i-1]) & !is.na(df$meter_reading[i-2])) {
    na_interpolation(df$meter_reading) 
    }
}

给我 :

Error in if (!is.na(df$meter_reading[i]) & is.na(df$meter_reading[i -  : 
  argument is of length zero

任何想法如何做到这一点?我在这里完全错了吗?

谢谢!

4

3 回答 3

1

我不知道你的 na.interpolation 是什么,但是以上一行和下一行的平均值为例,你可以用 dplyr 做到这一点:

df %>% mutate(x=ifelse(is.na(meter_reading),
                       (lag(meter_reading)+lead(meter_reading))/2,
                       meter_reading))
#  row     time meter_reading     x
#1   1 03:10:00         26400 26400
#2   2 03:15:00            NA 26800
#3   3 03:20:00         27200 27200
#4   4 03:25:00         28000 28000
#5   5 03:30:00            NA    NA
#6   6 03:35:00            NA    NA
#7   7 03:40:00         30000 30000
于 2018-09-13T13:31:18.150 回答
0

这里只是补充一下,在目前的imputeTSmaxgap包版本中,每个插补算法也有一个选项,很容易解决这个问题。当你问这个问题时,可能还没有。

您的代码如下所示:

library("imputeTS")
na_interpolation(df, maxgap = 1)

这意味着 1 NA 的间隙被估算,而连续 NA 的较长间隙仍然是 NA。

于 2021-11-14T23:32:12.247 回答
0

快速浏览一下,您的计数器i从 1 开始,然后您尝试在i-1and处获取索引i-2

于 2018-09-13T13:04:02.947 回答