4

给定一个data.table,我想快速地对其中的项目进行子集化。例如:

dt = data.table(a=1:10, key="a")
dt[a > 3 & a <= 7]

这仍然很慢。我知道我可以进行连接来获取单独的行,但是有没有办法证明它data.table已经排序以获得这种类型的快速子集?

这就是我正在做的事情:

dt1 = data.table(id = 1, ym = c(199001, 199006, 199009, 199012), last_ym = c(NA, 199001, 199006, 199009), v = 1:4, key=c("id", "ym"))
dt2 = data.table(id = 1, ym = c(199001, 199002, 199003, 199004, 199005, 199006, 199007, 199008, 199009, 199010, 199011, 199012), v2 = 1:12, key=c("id","ym"))

对于每个id,这里只有 1 ,并且ym在 中dt1,我想将v2当前ymindt1和最后一个ymin之间的值相加dt1。也就是说, for ym == 199006indt1我想返回list(v2 = 2 + 3 + 4 + 5 + 6)。这些是v2in的值,dt2等于或小于当前值ym(不包括前一个 ym)。在代码中:

expr = expression({ #browser();
 cur_id = id; 
 cur_ym = ym; 
 cur_dtb = dt2[J(cur_id)][ym <= cur_ym & ym > last_ym]; 
 setkey(cur_dtb , ym);
 list(r = sum(cur_dtb$v2))
})

dt1[,eval(expr ),by=list(id, ym)]
4

2 回答 2

4

为避免出现这种逻辑条件,请执行dt1and的滚动连接dt2。然后ym在 内向前移动一个位置id。最后,v2通过id和求和ym

setkey(dt1, id, last_ym)
setkey(dt2, id, ym)
dt1[dt2,, roll = TRUE][
       , list(v2 = v2, ym = c(last_ym[1], head(ym, -1))), by = id][
       , list(v2 = sum(v2)), by = list(id, ym)]

请注意,我们想要对所有内容求和,因为last_ymso 上的键dt1必须是last_ym而不是ym

结果是:

   id     ym v2
1:  1 199001  1
2:  1 199006 20
3:  1 199009 24
4:  1 199012 33

更新:更正

于 2013-07-05T20:02:01.880 回答
1

无论排序的事实如何data.table,您都将受到a > 3 & a <= 7首先评估所需的时间的限制:

> dt = data.table(a=1:10000000, key="a")
> system.time(dt$a > 3 & dt$a <= 7)
   user  system elapsed 
   0.18    0.01    0.20 
> system.time(dt[,a > 3 & a <= 7])
   user  system elapsed 
   0.18    0.05    0.24 
> system.time(dt[a > 3 & a <= 7])
   user  system elapsed 
   0.25    0.07    0.31

替代方法:

> system.time({Indices = dt$a > 3 & dt$a <= 7 ; dt[Indices]})
user  system elapsed 
0.28    0.03    0.31 

多个子集

如果您在特定的基础上分解因素而不是首先一次完成所有因素,那么这里可能会出现速度问题:

> dt <- data.table(A=sample(letters, 10000, replace=T))
> system.time(for(i in unique(dt$A)) dt[A==i])
   user  system elapsed 
   5.16    0.42    5.59 
> system.time(dt[,.SD,by=A])
   user  system elapsed 
   0.32    0.03    0.36
于 2013-07-05T18:46:49.080 回答