r - 为什么向量上的“by”不是来自 data.table 列的速度非常慢？

Question

test <- data.table(x=sample.int(10, 1000000, replace=TRUE))
y <- test$x
test[,.N, by=x] # fast
test[,.N, by=y] # extremely slow

为什么在第二种情况下它很慢？

这样做甚至更快：

test[,y:=y]
test[,.N, by=y]
test[,y:=NULL]

看起来好像优化得很差？

score 2 · Accepted Answer

好像忘记更新这个帖子了。

这早在 v1.8.11 的提交 #1039 中就已修复。来自新闻：

固定#5106whereDT[, .N, by=y]是y带有的向量length(y) = nrow(DT)，但y不是中的列DT。感谢您colinfang的报告。

在 v1.8.11 提交 1187 上进行测试：

require(data.table)
test <- data.table(x=sample.int(10, 1000000, replace=TRUE))
y <- test$x

system.time(ans1 <- test[,.N, by=x])
#   user  system elapsed 
#  0.015   0.000   0.016 

system.time(ans2 <- test[,.N, by=y])
#   user  system elapsed 
#  0.015   0.000   0.015 

setnames(ans2, "y", "x")
identical(ans1, ans2) # [1] TRUE

r - 为什么向量上的“by”不是来自 data.table 列的速度非常慢？

1 回答 1

这早在 v1.8.11 的提交 #1039 中就已修复。来自新闻：

在 v1.8.11 提交 1187 上进行测试：

Related

Reference