0

由于夏令时,我有一个大型电力负荷数据集,其中缺少每年三月最后一个星期日的时间戳。我在下面复制了几行,其中包含缺少的时间戳。

    structure(list(Date_Time = structure(c(1427569200, 1427572800, 
1427576400, 1427580000, 1427583600, 1427587200, NA, 1427590800, 
1427594400, 1427598000, 1427601600, 1427605200), tzone = "EET", class = c("POSIXct", 
"POSIXt")), Day_ahead_Load = c("7139", "6598", "6137", "5177", 
"4728", "4628", "N/A", "4426", "4326", "4374", "4546", "4885"
), Actual_Load = c(6541, 6020, 5602, 5084, 4640, 4593, NA, 4353, 
NA, NA, 4333, 4556)), row.names = c(NA, -12L), class = "data.frame")

#>              Date_Time Day_ahead_Load Actual_Load
#> 1  2015-03-28 21:00:00           7139        6541
#> 2  2015-03-28 22:00:00           6598        6020
#> 3  2015-03-28 23:00:00           6137        5602
#> 4  2015-03-29 00:00:00           5177        5084
#> 5  2015-03-29 01:00:00           4728        4640
#> 6  2015-03-29 02:00:00           4628        4593
#> 7                 <NA>            N/A          NA
#> 8  2015-03-29 04:00:00           4426        4353
#> 9  2015-03-29 05:00:00           4326          NA
#> 10 2015-03-29 06:00:00           4374          NA
#> 11 2015-03-29 07:00:00           4546        4333
#> 12 2015-03-29 08:00:00           4885        4556

我尝试使用 na.approx 填充这些缺失的时间戳,但该函数返回“2015-03-29 02:30:00”,而不是“2015-03-29 03:00:00”。它没有使用正确的比例。

mydata$Date_Time <- as.POSIXct(na.approx(mydata$Date_Time), origin = "1970-01-01 00:00:00", tz = "EET")

#>              Date_Time Day_ahead_Load Actual_Load
#> 1  2015-03-28 21:00:00           7139        6541
#> 2  2015-03-28 22:00:00           6598        6020
#> 3  2015-03-28 23:00:00           6137        5602
#> 4  2015-03-29 00:00:00           5177        5084
#> 5  2015-03-29 01:00:00           4728        4640
#> 6  2015-03-29 02:00:00           4628        4593
#> 7  2015-03-29 02:30:00            N/A          NA
#> 8  2015-03-29 04:00:00           4426        4353
#> 9  2015-03-29 05:00:00           4326          NA
#> 10 2015-03-29 06:00:00           4374          NA
#> 11 2015-03-29 07:00:00           4546        4333
#> 12 2015-03-29 08:00:00           4885        4556

我也尝试过使用其他一些功能,例如“填充”,但它们都不能正常工作。由于我对 R 相当陌生,因此我非常感谢任何有关填补缺失时间戳的建议。先感谢您。

4

2 回答 2

0

其实答案是正确的。由于从标准时间更改为夏令时,第 6 行和第 8 行之间仅相差一小时。

如果您希望这些行之间有 2 小时,请使用 GMT(或等效的 UTC)。下面我们使用相同的日期和时间作为字符串,但将时区更改为 GMT 以避免夏令时更改。

diff(mydata[c(6, 8), 1]) 
## Time difference of 1 hours

# use GMT
tt <- as.POSIXct(format(mydata[[1]]), tz = "GMT")
as.POSIXct(na.approx(tt), tz = "GMT", origin = "1970-01-01")
##  [1] "2015-03-28 21:00:00 GMT" "2015-03-28 22:00:00 GMT"
##  [3] "2015-03-28 23:00:00 GMT" "2015-03-29 00:00:00 GMT"
##  [5] "2015-03-29 01:00:00 GMT" "2015-03-29 02:00:00 GMT"
##  [7] "2015-03-29 03:00:00 GMT" "2015-03-29 04:00:00 GMT"
##  [9] "2015-03-29 05:00:00 GMT" "2015-03-29 06:00:00 GMT"
## [11] "2015-03-29 07:00:00 GMT" "2015-03-29 08:00:00 GMT"
于 2020-11-10T12:41:36.360 回答
0

您可以使用以下循环来确保您始终获得正确的答案,即使您NA在数据中有很多 's 相互关注。

library(lubridate)
dat$Date_Time <- as_datetime(as.character(dat$Date_Time))
dat$id <- 1:nrow(dat)
dat$previoustime <- NA
dat$timediff <- NA

for( i in 2:nrow(dat)) {
  previousdateinds <- which(!is.na(dat$Date_Time) & dat$id < i)
  previousdateind <- tail(previousdateinds,1)
  dat$timediff[i] <- i-previousdateind # number of rows between this row and the last non-NA time
  dat$previoustime[i] <- as.character(dat$Date_Time)[previousdateind]
  print(previousdateind)
  }
dat$previoustime <- as_datetime(dat$previoustime)

dat$result <- ifelse(is.na(dat$Date_Time), as.character(dat$previoustime+dat$timediff*60*60), 
                     as.character(dat$Date_Time))
dat[6:8,]
            Date_Time Day_ahead_Load Actual_Load id        previoustime timediff              result
6 2015-03-29 02:00:00           4628        4593  6 2015-03-29 01:00:00        1 2015-03-29 02:00:00
7                <NA>            N/A          NA  7 2015-03-29 02:00:00        1 2015-03-29 03:00:00
8 2015-03-29 04:00:00           4426        4353  8 2015-03-29 02:00:00        2 2015-03-29 04:00:00
于 2020-11-10T12:42:15.670 回答