3

我有一个包含以下潮汐信息的数据框。我正在尝试编写一个需要四个参数(low.max、hi.max、hi.earliest、hi.latest)的函数。例如,向我展示所有低点为 2 英尺或更低、嗨点为 6 英尺或更低、嗨点发生在上午 10 点到下午 4 点之间的所有日子。现在我正在遍历行来执行此操作(有点让 hi.max - low.max 使用它),但我是 R 新手,并假设有一种更像 R 的方法。

  date      day  time       ft      cm     H/L
2013/01/01  Tue 07:03 AM    8.1     247     H
2013/01/01  Tue 12:49 PM    5.1     155     L
2013/01/01  Tue 05:30 PM    5.7     174     H
2013/01/02  Wed 12:03 AM    0.5     15      L
2013/01/02  Wed 07:33 AM    8.1     247     H
2013/01/02  Wed 01:40 PM    4.4     134     L
2013/01/02  Wed 06:32 PM    5.3     162     H
2013/01/03  Thu 12:42 AM    1.4     43      L
2013/01/03  Thu 08:03 AM    8.1     247     H
2013/01/03  Thu 02:33 PM    3.5     107     L
2013/01/03  Thu 07:46 PM    4.9     149     H

添加 dput 输出:

structure(list(Date = structure(c(15706, 15706, 15706, 15707, 
15707, 15707, 15707, 15708, 15708, 15708), class = "Date"), Day = c("Tue", 
"Tue", "Tue", "Wed", "Wed", "Wed", "Wed", "Thu", "Thu", "Thu"
), Time = c("7:03 AM", "12:49 PM", "5:30 PM", "12:03 AM", "7:33 AM", 
"1:40 PM", "6:32 PM", "12:42 AM", "8:03 AM", "2:33 PM"), Pred.Ft. = c(8.1, 
5.1, 5.7, 0.5, 8.1, 4.4, 5.3, 1.4, 8.1, 3.5), Pred.cm. = c(247L, 
155L, 174L, 15L, 247L, 134L, 162L, 43L, 247L, 107L), High_Low = c("H", 
"L", "H", "L", "H", "L", "H", "L", "H", "L")), .Names = c("Date", 
"Day", "Time", "Pred.Ft.", "Pred.cm.", "High_Low"), row.names = c(NA, 
10L), class = "data.frame")

到目前为止,我为 hi/lo 部分所做的尝试与时间无关:

  tides <- read.csv("TideData.csv", stringsAsFactors = FALSE)

  for (i in 1: nrow(tides)){
    if (tides[i, 6] == "L" & tides[i, 4] <= low.max 
        & tides[i+1, 6] == "H" & tides[i+1, 4] <= hi.max){

      #deal with last iteration being out of bounds / write out to a df

    }
4

2 回答 2

2

子集化数据是 R 中非常基本的操作,并且在 R 手册An Introduction to R中有很好的描述。

假设您的数据被调用x,请使用子集运算符[指定要保留的行:

x[x$Pred.Ft < 2, ]

        Date Day     Time Pred.Ft. Pred.cm. High_Low
4 2013-01-02 Wed 12:03 AM      0.5       15        L
8 2013-01-03 Thu 12:42 AM      1.4       43        L

或者只有涨潮:

x[x$Pred.Ft > 6, ]

        Date Day    Time Pred.Ft. Pred.cm. High_Low
1 2013-01-01 Tue 7:03 AM      8.1      247        H
5 2013-01-02 Wed 7:33 AM      8.1      247        H
9 2013-01-03 Thu 8:03 AM      8.1      247        H

要组合逻辑语句,请使用|forOR&for AND。因此,要一步获得一组低潮和高潮:

x[x$Pred.Ft > 6 | x$Pred.Ft < 2, ]


        Date Day     Time Pred.Ft. Pred.cm. High_Low
1 2013-01-01 Tue  7:03 AM      8.1      247        H
4 2013-01-02 Wed 12:03 AM      0.5       15        L
5 2013-01-02 Wed  7:33 AM      8.1      247        H
8 2013-01-03 Thu 12:42 AM      1.4       43        L
9 2013-01-03 Thu  8:03 AM      8.1      247        H

仅在大潮中获得高潮,试试这个。由于您知道每个低点后面都有一个高点,因此您可以使用 计算潮位差diff,然后只返回差值高于阈值的行:

x$Tidediff <- c(NA, diff(x$Pred.Ft))
na.omit(x[x$Tidediff > 6, ])

        Date Day    Time Pred.Ft. Pred.cm. High_Low Tidediff
5 2013-01-02 Wed 7:33 AM      8.1      247        H      7.6
9 2013-01-03 Thu 8:03 AM      8.1      247        H      6.7
于 2013-01-27T06:57:15.687 回答
1

使用该by函数处理具有相同日期值的记录:

L.lt.2 <- by(tides, tides$Date, FUN= function(d) d[
                          d$High_Low=="L" & d$Pred.Ft <= 2,  "Date",drop=FALSE])
H.lt.6.b.4 <- by(tides, tides$Date, FUN= function(d) d[
               d$High_Low=="H"     &     d$Pred.Ft <= 6    & 
               as.POSIXct(d$Time, format="%H:%M %p") <= 
                                           as.POSIXct("4:00 PM", format="%H:%M %p"), 
                                                             "Date", drop=FALSE])
intersect(L.lt.2, H.lt.6.b.4)
#[[1]]
#character(0)

没有费心提出额外的时间要求,因为数据不是为了支持条件测试而构建的。留下作为“练习”,因为它只涉及向[i, ...]-selection 操作添加额外的逻辑向量。(最好构建一个至少有一个日期满足目标的示例。)

于 2013-01-27T17:28:04.313 回答