1

当在车站检测到个体动物时,我有一个大型数据集(> 900 万行)时间和位置。我想计算每只动物在车站之间旅行时沿每条动物路径的每个车站之间的距离,以及在车站之间旅行的时间。然后我想总结一下路径所有部分的总距离和时间。

对于该数据集中的每个个体,数据在每次在固定点检测到时都会进行组织。如果个人长时间连续处于静止点,则该时间段有多个记录(每条记录相隔约 30 秒)。

我可以总结下面的数据,以获得一个人每次在车站时的 1 行(见下文)。但是,当一个人多次前往同一站点时,输出无法识别。

例如

id <- c("A", "A", "A", "A", "A", "A", "A", "A", "B", "B")
site <- c("a", "a", "b", "a", "c", "c", "c", "d", "a", "b")
time <- seq(1:10)
lat <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2)
lon <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2)

df <- data.frame(id, site, time, lat, lon)

df %>% group_by(id, site, lat, lon) %>%
  summarize(timeStart = min(time), 
            timeEnd = max(time))

# A tibble: 6 x 6
# Groups:   id, site, lat [?]
  id    site    lat   lon timeStart timeEnd
  <fct> <fct> <dbl> <dbl>     <dbl>   <dbl>
1 A     a         1     1         1       4
2 A     b         2     2         3       3
3 A     c         3     3         5       7
4 A     d         4     4         8       8
5 B     a         1     1         9       9
6 B     b         2     2        10      10

一种对数据进行分组的方法,以便将多次访问同一站点(中间有其他站点的行程)识别为行程的单独“行程”。

然后,我需要计算每个站之间的大圆距离,以及 timeEnd(第 1 站)和 timeStart(第 2 站)之间的时间差。

4

2 回答 2

3

首先,该data.table函数rleid用于创建分组变量:对于每个个体,每个站点的变化代表一个新的组。在每个组中,计算所需的统计数据:

library(data.table)
library(geosphere)
setDT(df)
df2 <- df[ , .(id = id[1],
               site = site[1],
               lat = lat[1],
               lon = lon[1],
               first_time = min(time),
               last_time = max(time)),
           by = .(id_site = rleid(id, site))]

然后,对于每个个体,连续站点之间的连续大圆距离用 计算geosphere::distHaversine。为避免个人只有一两条记录时出现问题*,添加了一些检查:

df2[ , dist := if(.N == 1){
  0 } else if(.N == 2){
    c(0, distHaversine(c(lon[1], lat[1]), c(lon[2], lat[2])))
  } else c(0, distHaversine(as.matrix(.SD[ , .(lon, lat)]))), by = id]

#    id_site id site lat lon first_time last_time     dist
# 1:       1  A    a   1   1          1         2      0.0
# 2:       2  A    b   2   2          3         3 157401.6
# 3:       3  A    a   1   1          4         4 157401.6
# 4:       4  A    c   3   3          5         7 314755.2
# 5:       5  A    d   4   4          8         8 157281.8
# 6:       6  B    a   1   1          9         9      0.0
# 7:       7  B    b   2   2         10        10 157401.6
# 8:       8  C    a   1   1         11        11      0.0

因此,对于每个人,每个新站点仅计算一次距离。这与另一个答案形成鲜明对比,后者在每个时间步之间执行距离计算(看起来可能很多)。


*尝试例如distHaversine(cbind(1, 1))( distGeo(cbind(1, 1))) 或distHaversine(cbind(c(1, 1), c(1, 2)))( distGeo(cbind(c(1, 1), c(1, 2))))


数据

我添加了一个只有一条记录的个人作为测试用例。

id <- c("A", "A", "A", "A", "A", "A", "A", "A", "B", "B", "C")
site <- c("a", "a", "b", "a", "c", "c", "c", "d", "a", "b", "a")
time <- seq(1:11)
lat <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2, 1)
lon <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2, 1)

df <- data.frame(id, site, time, lat, lon)
于 2019-01-04T22:50:42.410 回答
2

这可能不是您的完整解决方案,但它是一个好的开始。这将找到每行数据之间的距离和时间差,并在行之间的 id 更改时将值设置为 NA。

df <- data.frame(id, site, time, lat, lon)

library(geosphere)
library(dplyr)

#sort data by id and time
df<-df[order(df$id, df$time), ]
#find distance between each point in column
# Note longitude is the first column
df$distance<-c(NA, distGeo(df[,c("lon", "lat")]))
#find delta time between each row for each id
df<-df %>% group_by(id) %>% mutate(dtime=case_when(site != lag(site) ~ time-lag(time),
                                               TRUE ~ NA_integer_))
#remove distances where there was no delta time (row pairs with different ids)
df$distance[is.na(df$dtime)]<-NA

#id summary
df%>% summarize(disttraveled=sum(distance, na.rm=TRUE), totaltime=sum(dtime, na.rm=TRUE))
于 2019-01-04T20:06:34.293 回答