2

我的原件data.table由三栏组成。
site,observation_numberid.

例如,以下是 id = z 的所有观察结果

|site|observation_number|id
|a   |                 1| z                 
|b   |                 2| z
|c   |                 3| z

这意味着 IDz已经从abc

每个 ID 没有固定数量的站点。

我希望将数据转换为这样的边缘列表

|from |to||id|
|a    | b| z |
|b    | c| z |

模拟数据

sox <- data.table(site =  c('a','b','c','a','c','c','a','d','e'),
       obsnum =c(1,2,3,1,2,1,2,3,4),
       id     =c('z','z','z','y','y','k','k','k','k'))

我目前这样做的方式感觉很复杂而且很慢(sox 有 1.5 mio 行,dt_out 有 ca. 7.5 mio. rows)。我基本上使用 for 循环observation_number将数据拆分为每个 ID 仅存在一次的块(即 - 只有一次旅程,到 - 从)。然后我投射数据,并将所有块剥离到一个新的 data.table 中。

dt_out <- data.table()
maksimum = sox[,max(observation_number)]
for (i in 1:maksimum-1) {
  i=1
  mini = i
  maxi = i+1
  sox_t <- sox[observation_number ==maxi | observation_number ==mini, ]
  temp_dt <- dcast(sox_t[id %in% sox_t[, .N, by = id][N>=2]$id,
                             .SD[, list(site, observation_number, a=rep(c('from', 'to')))] ,by=id],
                       id='id', value.var='site', formula=id~a)
  dt_out <- rbind(dt_out, temp_dt)
  i=max
  }

我希望有人能帮我优化这个,最好创建一个函数,我可以在其中输入 data.table、站点 id、observationnumber id 和 id。出于某种原因,不管它是否有效,我都无法创建一个函数。

更新

使用系统时间(并运行系统时间几次):

                             User - System - Elapsed
make_edgelist (data.table):  5.38     0.00      5.38
Data.table. with shift:     13.96     0.06     14.08 
dplyr, with arrange:         6.06     0.36      6.44

ps make_edgelist 已更新以订购 data.table

make_edgelist <- function(DT, site_var = "site", id_var = "id", obsnum_var   = "rn1") {
    DT[order(get(obsnum_var)),
    list(from = get(site_var)[-.N], to = get(site_var)[-1]), by = id_var]
}

我很惊讶 dplyr (with lead) 几乎和 make_edgelist 一样快,并且比 data.table with 快得多shift。我想这意味着 dplyr 实际上会更快,因为更复杂的领先/滞后/移位。

我也觉得它令人费解 - 但不知道它是否有任何意义,dplyr 比两个 data.table 解决方案中的任何一个都使用了更多的“系统”时间。

输入数据:150 万行。结果:60 万行。

4

3 回答 3

4

使用dplyr,您可以尝试:

sox %>%
 group_by(id) %>%
 transmute(from = site,
           to = lead(from)) %>%
 na.omit()

  id    from  to   
  <chr> <chr> <chr>
1 z     a     b    
2 z     b     c    
3 y     a     c    
4 k     c     a    
5 k     a     d    
6 k     d     e    

正如@Sotos 所指出的,首先排列数据可能很有用:

sox %>%
 arrange(id, obsnum) %>%
 group_by(id) %>%
 transmute(from = site,
           to = lead(from)) %>%
 na.omit()
于 2019-10-14T08:37:30.087 回答
3

这是你想要的?

sox[, .(from = site[-.N], to = site[-1]), by = id]

#    id from to
# 1:  z    a  b
# 2:  z    b  c
# 3:  y    a  c
# 4:  k    c  a
# 5:  k    a  d
# 6:  k    d  e

封装在一个函数中:

make_edgelist <- function(DT, site_var = "site", id_var = "id") {
  DT[, .(from = get(site_var)[-.N], to = get(site_var)[-1]), by = id_var]
}

注意:此解决方案假定数据已按观察编号排序。为了避免这种假设order(obsnum),请在第一个逗号之前添加。

于 2019-10-14T11:04:47.047 回答
2

使用data.table,如果它比dplyr上面的解决方案更快,你有:

sox <- sox[order(id, obsnum)]
sox[, from := shift(site), by = "id"]
sox <- sox[!is.na(from)]
setnames(sox, "site", "to")
sox[, obsnum := NULL]
setcolorder(sox, c("id", "from", "to"))
sox
#>    id from to
#> 1:  k    c  a
#> 2:  k    a  d
#> 3:  k    d  e
#> 4:  y    a  c
#> 5:  z    a  b
#> 6:  z    b  c
于 2019-10-14T08:50:02.713 回答