给定一个data.table
,我想快速地对其中的项目进行子集化。例如:
dt = data.table(a=1:10, key="a")
dt[a > 3 & a <= 7]
这仍然很慢。我知道我可以进行连接来获取单独的行,但是有没有办法证明它data.table
已经排序以获得这种类型的快速子集?
这就是我正在做的事情:
dt1 = data.table(id = 1, ym = c(199001, 199006, 199009, 199012), last_ym = c(NA, 199001, 199006, 199009), v = 1:4, key=c("id", "ym"))
dt2 = data.table(id = 1, ym = c(199001, 199002, 199003, 199004, 199005, 199006, 199007, 199008, 199009, 199010, 199011, 199012), v2 = 1:12, key=c("id","ym"))
对于每个id
,这里只有 1 ,并且ym
在 中dt1
,我想将v2
当前ym
indt1
和最后一个ym
in之间的值相加dt1
。也就是说, for ym == 199006
indt1
我想返回list(v2 = 2 + 3 + 4 + 5 + 6)
。这些是v2
in的值,dt2
等于或小于当前值ym
(不包括前一个 ym)。在代码中:
expr = expression({ #browser();
cur_id = id;
cur_ym = ym;
cur_dtb = dt2[J(cur_id)][ym <= cur_ym & ym > last_ym];
setkey(cur_dtb , ym);
list(r = sum(cur_dtb$v2))
})
dt1[,eval(expr ),by=list(id, ym)]