r - 返回组的第一行

Question

我有一个由组成的数据框ID，这对于组中的每个元素都是相同的，两个日期时间以及这两者之间的时间间隔。datetime 对象之一是我的相关时间标记。现在我想获取数据帧的一个子集，其中包含每个组的最早条目。条目（尤其是时间间隔）需要保持不变。

我的第一种方法是根据 1. ID 和 2. 相关日期时间对框架进行排序。但是，我无法为每个新组返回第一个条目。

然后我一直在查看aggregate()以及ddply()函数，但是我在两者中都找不到一个选项，它只返回第一个条目而不将聚合函数应用于时间间隔值。

有没有（简单的）方法可以做到这一点？

补充：也许我通过添加我的 aggregate() 和 ddply() 注释不清楚。我不一定需要汇总。鉴于数据帧的排序方式是每个新组的第一行是我要查找的行，因此只需返回一个子集，其中每一行的 ID 与之前的 ID 不同（即每个新组的起始行）。

示例数据：

structure(list(ID = c(1454L, 1322L, 1454L, 1454L, 1855L, 1669L, 
1727L, 1727L, 1488L), Line = structure(c(2L, 1L, 3L, 1L, 1L, 
1L, 1L, 1L, 1L), .Label = c("A", "B", "C"), class = "factor"), 
    Start = structure(c(1357038060, 1357221074, 1357369644, 1357834170, 
    1357913412, 1358151763, 1358691675, 1358789411, 1359538400
    ), class = c("POSIXct", "POSIXt"), tzone = ""), End = structure(c(1357110430, 
    1357365312, 1357564413, 1358230679, 1357978810, 1358674600, 
    1358853933, 1359531923, 1359568151), class = c("POSIXct", 
    "POSIXt"), tzone = ""), Interval = c(1206.16666666667, 2403.96666666667, 
    3246.15, 6608.48333333333, 1089.96666666667, 8713.95, 2704.3, 
    12375.2, 495.85)), .Names = c("ID", "Line", "Start", "End", 
"Interval"), row.names = c(NA, -9L), class = "data.frame")

score 18 · Accepted Answer

通过复制示例数据框并对其进行测试，我找到了一种获得所需结果的方法：

按相关列排序数据（ID、开始）

ordered_data <- data[order(data$ID, data$Start),]
查找每个新 ID 的第一行

final <- ordered_data[!duplicated(ordered_data$ID),]

score 13 · Accepted Answer

由于您不提供任何数据，因此这里是使用带有示例数据框的基本 R 的示例：

df <- data.frame(group=c("a", "b"), value=1:8)
## Order the data frame with the variable of interest
df <- df[order(df$value),]
## Aggregate
aggregate(df, list(df$group), FUN=head, 1)

编辑：正如阿南达在他的评论中建议的那样，以下调用aggregate更好：

aggregate(.~group, df, FUN=head, 1)

如果您更喜欢使用plyr，可以替换aggregate为ddply：

ddply(df, "group", head, 1)

score 0 · Accepted Answer

使用ffirst来自collapse

library(collapse)
ffirst(df, g = df$group)

数据

df <- data.frame(group=c("a", "b"), value=1:8)

score 0 · Accepted Answer

这也可以通过dplyr使用group_by和slice-family 函数来实现，

data %>%
        group_by(ID) %>%
        slice_head(n = 1)

r - 返回组的第一行

4 回答 4

数据

Related

Reference