3

我的问题是关于如何管理空气质量数据库中的日期和时间,该数据库从 2002 年到 2008 年每天每十分钟保存一次数据。

我想生成几个分析和绘图,但仅指从早上 6:00 到早上 8:00 的早高峰时段我试图在所需的时间间隔内生成图表,但 R 工具总是在因此,高峰时段的可用数据会失真。

我非常感谢您就如何仅在高峰时段选择和绘制间隔以及如何生成多个图表提供指导。

我有下一个脚本来生成日期间隔,但我想汇总小时间隔(早上 6 点到 8 点)并只绘制间隔数据:

# select interval
start.date = as.POSIXct("2007-03-27 05:00", tz = "GMT")
end.date = as.POSIXct("2007-05-27 05:00", tz = "GMT")
subdata = subset(mydata, date >= start.date & date <= end.date,
select = c(date, nox, co))
#
#plot the variables
4

3 回答 3

6

我建议您使用时间序列类而不是 data.frame。使用 xts 每天按时间间隔进行子集很容易:

# use DWin's example data
Data <- data.frame(a=rnorm(240),
  dtm=as.POSIXct("2007-03-27 05:00", tz="GMT")+3600*(1:240))
# create xts object
library(xts)
x <- xts(Data[,"a"], Data[,"dtm"])
# subset by time of day
y <- x["T06:00/T08:00"]
# plot
plot(y)  # plots all 24 hours of each day
# use chartSeries from quantmod to avoid above behavior
library(quantmod)
chartSeries(y)
于 2012-06-16T12:07:46.243 回答
4

如果您的日期时间在名为“dtm”的列中,则此代码应获取 6A 到 8A 区间内的记录

dfrm <- data.frame(a=rnorm(24),  
                   dtm =as.POSIXct("2007-03-27 05:00", tz='GMT') +3600*(1:24) )     
    sub6_8A <- subset(dfrm, strftime(dtm, "%H", tz="GMT") %in% c('06','07','08') )
sub6_8A
           a                 dtm
1  0.5020823 2007-03-27 06:00:00
2 -0.7455312 2007-03-27 07:00:00
3  1.8035086 2007-03-27 08:00:00

您也可以使用带有“[[”的索引方法,但如果您有 NA,除非您特别排除它们,否则它们会被拖累。

于 2012-06-16T07:44:14.083 回答
1

如果这是一个 data.frame,我将首先将每个条目的时间提取到一个新列中,然后用“峰值”标志标记每一行,然后使用它变得更加容易。一周中的一天同上。由于只有大约 350k 行,这将相当快,而且是一次性的,所以你可以做一些丑陋的事情,比如:

# create some fake data
t1 <- as.POSIXct(paste('2012-06-16 0', 1:9, ':00', sep=''), tz='GMT')
N <- length(t1)
mydata <- data.frame(timestamp=t1, co=runif(N, 1,30), nox=runif(N, 5,50))

# extract out the hour of day
mydata$hour <- gsub('^.* ', '', as.character(t1))
# is this a peak time?
mydata$peak <- regexpr('^0[678]', mydata$hour) >0

现在,您可以轻松地仅选择那些来自高峰时段的记录 - 这将是一个小得多的图表子集 - 少于 50k 条记录。

mypeakdata <- subset(mydata, peak)

因为我确信您将使用不同的假设进行许多此类分析,所以我建议您将各种列(例如一天中的小时、一周中的一天等)添加到您的 data.frame 中并将它们留在那里,然后保存这个大data.frame,如:

save(mydata, 'mydata_version_2012-06-16_8h58.RData')
于 2012-06-16T07:38:12.503 回答