我有以下格式的事件日志。
原始格式
我使用 dplyr 按 DATE 和 ID 创建了组,因此日期或 ID 的更改将被视为不同的组。
我只想拥有 >= 5 秒时间间隔的事件并删除其余事件。 期望的输出
我已经使用 dplyr 和时间滞后来实现这一点,因为我无法为此动态分配滞后间隔。但是我当前的代码检查一个滞后间隔,我最终删除了比预期更多的行。当前输出 - 所有黄色行都被删除。理想情况下,我希望保留第 2 组中的“13:10:22”、“13:10:24”,因为从“13:10:17”到这些时间的时间滞后是 5 秒或更多。
我正在使用“chron”来处理时间。我知道时间滞后逻辑在我的情况下不起作用。除了使用昂贵的 for/if 循环之外,还有更好的选择吗?
我用过的代码
data$Date <- as.Date(data$Date,format = "%m/%d/%Y")
data$Time <- chron(times = data$Time)
data <- data %>% arrange(Date,Time,ID)
data$Group <- data %>% group_by(Date,ID) %>% group_indices
data <- data %>%
group_by(Group) %>%
mutate(time.difference = Time - lag(Time)) %>%
filter(time.difference >= 0.00005787 | is.na(time.difference))
数据输出
结构(列表(日期=结构(c(17469、17469、17469、17469、17469、17469、17469、17469、17469、17469、17469、17469、17469、17469、17469、70、174、0174)类= "Date"), Time = structure(c(0.936400462962963, 0.9425, 0.9425, 0.942511574074074, 0.942523148148148, 0.9703125, 0.548518518518519, 0.548530092592593, 0.54880787037037, 0.54880787037037, 0.548819444444444, 0.548842592592593, 0.548865740740741, 0.548888888888889, 0.557337962962963, 0.6140625, 0.618761574074074, 0.618958333333333, 0.622303240740741) , 格式 = "h:m:s", class = "times"), ID = c("P1", "P1", "P1", "P1", "P1", "P1", "P5", “P5”、“P5”、“P5”、“P5”、“P5”、“P5”、“P5”、“P5”、“P9", "P9", "P9", "P9")), .Names = c("Date", "Time", "ID"), row.names = c(NA, -19L), class = "数据.frame")