r - 从多年时间序列计算每小时平均值

Question

我有一个数据集，其中填充了多年的平均每小时风速。我想创建一个“平均年”，其中每个小时计算该小时多年来的平均风速。如何在不循环遍历数据集的情况下做到这一点？理想情况下，我想只循环一次数据，为每一行提取正确的月份、日期和小时，并将该行的风速添加到数据框中的右行，其中每个月、天和小时聚集。是否可以在不提取月、日和小时的情况下执行此操作，然后遍历完整的平均年 data.frame 以找到正确的行？

一些示例数据：

data.multipleyears <- data.frame(
 DATETIME = c("2001-01-01 01:00:00", "2001-05-03 09:00:00", "2007-01-01 01:00:00", "2008-02-29 12:00:00"),
 Windspeed = c(10, 5, 8, 3)
)

我想在这样的数据框中聚合：

average.year <- data.frame(
 DATETIME = c("01-01 00:00:00", "01-01 01:00:00", ..., "12-31 23:00:00")
 Aggregate.Windspeed = (100, 80, ...)
)

从那里，我可以继续计算平均值等。我可能忽略了一些命令，但是对于这样的事情（在伪代码中）正确的语法是什么：

 for(i in 1:nrow(data.multipleyears) {
  average.year$Aggregate.Windspeed[
   where average.year$DATETIME(month, day, hour) == data.multipleyears$DATETIME[i](month, day, hour)]  <- average.year$Aggregate.Windspeed + data.multipleyears$Windspeed[i]
 }

或类似的东西。帮助表示赞赏！

score 3 · Accepted Answer

我预测 ddply 和 plyr 包将成为你最好的朋友 :)。我创建了一个 30 年的数据集，每小时随机风速在 1 到 10 毫秒之间：

begin_date = as.POSIXlt("1990-01-01", tz = "GMT")
# 30 year dataset
dat = data.frame(dt = begin_date + (0:(24*30*365)) * (3600))
dat = within(dat, {
  speed = runif(length(dt), 1, 10)
  unique_day = strftime(dt, "%d-%m")
})
> head(dat)
                   dt unique_day    speed
1 1990-01-01 00:00:00      01-01 7.054124
2 1990-01-01 01:00:00      01-01 2.202591
3 1990-01-01 02:00:00      01-01 4.111633
4 1990-01-01 03:00:00      01-01 2.687808
5 1990-01-01 04:00:00      01-01 8.643168
6 1990-01-01 05:00:00      01-01 5.499421

要计算这 30 年期间的每日正常值（30 年平均值，该术语在气象学中经常使用）：

library(plyr)
res = ddply(dat, .(unique_day), 
            summarise, mean_speed = mean(speed), .progress = "text")
> head(res)
  unique_day mean_speed
1      01-01   5.314061
2      01-02   5.677753
3      01-03   5.395054
4      01-04   5.236488
5      01-05   5.436896
6      01-06   5.544966

这在我不起眼的两核 AMD 上只需要几秒钟，所以我怀疑不需要只检查一次数据。这些对不同聚合（月份、季节等）的多个ddply调用可以单独完成。

score 2 · Accepted Answer

您可以使用substr来提取您想要的日期部分，然后使用tapply或ddply来聚合数据。

tapply(
  data.multipleyears$Windspeed, 
  substr( data.multipleyears$DATETIME, 6, 19), 
  mean 
)
# 01-01 01:00:00 02-29 12:00:00 05-03 09:00:00 
#              9              3              5 

library(plyr)
ddply(
  data.multipleyears, 
  .(when=substr(DATETIME, 6, 19)), 
  summarize, 
  Windspeed=mean(Windspeed)
)
#             when Windspeed
# 1 01-01 01:00:00         9
# 2 02-29 12:00:00         3
# 3 05-03 09:00:00         5

score 0 · Accepted Answer

这是很老的帖子，但我想补充一下。我猜Openair 中的 timeAverage也可以使用。在手册中，timeAverage 函数有更多选项。

r - 从多年时间序列计算每小时平均值

3 回答 3

Related

Reference