0

我想使用数据框中的参考列创建一个 4 小时的间隔。我有一个像这样的数据框:

species<-"ABC"
ind<-rep(1:4,each=24)
hour<-rep(seq(0,23,by=1),4)
depth<-runif(length(ind),1,50)

df<-data.frame(cbind(species,ind,hour,depth))
df$depth<-as.numeric(df$depth)

我想要创建一个新列(不更改原始数据框的信息或维度),它可以查看我的小时列(参考列),并且基于该值会给我一个 4 小时的时间间隔。例如,如果小时列中的值介于 0 和 3 之间,则新列中的值将为 0;如果该值介于 4 和 7 之间,则新列中的值将为 4,依此类推...在 excel 中,我曾经为此使用地板/天花板函数,但在 R 中它们并不完全相同。此外,如果有人对此有更简单的建议,使用也可以使用的原始日期/时间数据。在我的原始脚本中,我使用函数 as.POSIXct 来获取日期/时间数据,并从那里获取我的小时列。

我感谢您的帮助,

4

4 回答 4

2

取小时列,将其转换为整数,然后使用整数除法来获得下限怎么样?像这样的东西

# convert hour to integer (hour is currently a col of factors)
i <- as.numeric(levels(df$hour))[df$hour]

# make new column
df$interval <- (i %/% 4) * 4 
于 2012-12-17T05:29:22.670 回答
2

扩展我的评论,因为我认为您最终会在某个时候寻找实际日期......

一些示例每小时数据:

set.seed(1)
mydata <- data.frame(species = "ABC",
                     ind = rep(1:4, each=24),
                     depth = runif(96, 1, 50),
                     datetime = seq(ISOdate(2000, 1, 1, 0, 0, 0), 
                                    by = "1 hour", length.out = 96))
list(head(mydata), tail(mydata))
# [[1]]
#   species ind    depth            datetime
# 1     ABC   1 14.00992 2000-01-01 00:00:00
# 2     ABC   1 19.23407 2000-01-01 01:00:00
# 3     ABC   1 29.06981 2000-01-01 02:00:00
# 4     ABC   1 45.50218 2000-01-01 03:00:00
# 5     ABC   1 10.88241 2000-01-01 04:00:00
# 6     ABC   1 45.02109 2000-01-01 05:00:00
# 
# [[2]]
#    species ind     depth            datetime
# 91     ABC   4 12.741841 2000-01-04 18:00:00
# 92     ABC   4  3.887784 2000-01-04 19:00:00
# 93     ABC   4 32.472125 2000-01-04 20:00:00
# 94     ABC   4 43.937191 2000-01-04 21:00:00
# 95     ABC   4 39.166819 2000-01-04 22:00:00
# 96     ABC   4 40.068132 2000-01-04 23:00:00

cut使用and转换该数据format

mydata <- within(mydata, {
    hourclass <- cut(datetime, "4 hours")             # Find the intervals
    hourfloor <- format(as.POSIXlt(hourclass), "%H")  # Display just the "hour"
})
list(head(mydata), tail(mydata))
# [[1]]
#   species ind    depth            datetime           hourclass hourfloor
# 1     ABC   1 14.00992 2000-01-01 00:00:00 2000-01-01 00:00:00        00
# 2     ABC   1 19.23407 2000-01-01 01:00:00 2000-01-01 00:00:00        00
# 3     ABC   1 29.06981 2000-01-01 02:00:00 2000-01-01 00:00:00        00
# 4     ABC   1 45.50218 2000-01-01 03:00:00 2000-01-01 00:00:00        00
# 5     ABC   1 10.88241 2000-01-01 04:00:00 2000-01-01 04:00:00        04
# 6     ABC   1 45.02109 2000-01-01 05:00:00 2000-01-01 04:00:00        04
# 
# [[2]]
#    species ind     depth            datetime           hourclass hourfloor
# 91     ABC   4 12.741841 2000-01-04 18:00:00 2000-01-04 16:00:00        16
# 92     ABC   4  3.887784 2000-01-04 19:00:00 2000-01-04 16:00:00        16
# 93     ABC   4 32.472125 2000-01-04 20:00:00 2000-01-04 20:00:00        20
# 94     ABC   4 43.937191 2000-01-04 21:00:00 2000-01-04 20:00:00        20
# 95     ABC   4 39.166819 2000-01-04 22:00:00 2000-01-04 20:00:00        20
# 96     ABC   4 40.068132 2000-01-04 23:00:00 2000-01-04 20:00:00        20

请注意,您的新“hourclass”变量是一个因素,新的“hourfloor”变量是字符,但您可以轻松更改它们,即使在within阶段期间也是如此。

str(mydata)
# 'data.frame':    96 obs. of  6 variables:
#  $ species  : Factor w/ 1 level "ABC": 1 1 1 1 1 1 1 1 1 1 ...
#  $ ind      : int  1 1 1 1 1 1 1 1 1 1 ...
#  $ depth    : num  14 19.2 29.1 45.5 10.9 ...
#  $ datetime : POSIXct, format: "2000-01-01 00:00:00" "2000-01-01 01:00:00" ...
#  $ hourclass: Factor w/ 24 levels "2000-01-01 00:00:00",..: 1 1 1 1 2 2 2 2 3 3 ...
#  $ hourfloor: chr  "00" "00" "00" "00" ...
于 2012-12-17T05:59:04.243 回答
1

提示号 1,不要cbind用于创建具有不同类型列的 data.frame,所有内容都被强制为相同类型(在这种情况下为因素)

findInterval或者cut在这里似乎合适。

df <- data.frame(species,ind,hour,depth)
# copy
df2 <- df
df2$fourhour <- c(0,4,8,12,16,20)[findInterval(df$hour, c(0,4,8,12,16,20))]
于 2012-12-17T05:27:38.557 回答
1

尽管可能有一种更简单的方法,但这是一种尝试。

使您的 data.frame 不cbind首先使用,所以hour不是factor但是numeric

df <- data.frame(species,ind,hour,depth)

然后:

df$interval <- factor(findInterval(df$hour,seq(0,23,4)),labels=seq(0,23,4))

结果:

> head(df)
  species ind hour    depth interval
1     ABC   1    0 23.11215        0
2     ABC   1    1 10.63896        0
3     ABC   1    2 18.67615        0
4     ABC   1    3 28.01860        0
5     ABC   1    4 38.25594        4
6     ABC   1    5 30.51363        4

您还可以使标签更好一些,例如:

cutseq <- seq(0,23,4)
df$interval <- factor(
                       findInterval(df$hour,cutseq),
                       labels=paste(cutseq,cutseq+3,sep="-")
                     )

结果:

> head(df)
  species ind hour    depth interval
1     ABC   1    0 23.11215      0-3
2     ABC   1    1 10.63896      0-3
3     ABC   1    2 18.67615      0-3
4     ABC   1    3 28.01860      0-3
5     ABC   1    4 38.25594      4-7
6     ABC   1    5 30.51363      4-7
于 2012-12-17T05:27:59.630 回答