是否可以与 R data.tables 中的补码进行聚合。下面的例子。
library(data.table)
dt <- data.table(a=c("word1","word2","word2","word2"), b=c("cat1","cat1","cat1","cat2"))
获取类别中特定单词的数量
newdt <- dt[,(.N),by=.(a,b)]
#word1,cat1 - 1
#word2,cat1 - 2
#word2,cat2 - 1
我如何计算该类别中所有其他单词的数量?或者与此相关的是,该词所属的其他类别的数量?像下面这样的东西?
#doesn't work
#newdt2 <- dt[a!=a,(.N),by=.(a,b)]
#the expected answer would be
#word1,cat1 - 2
#word2,cat1 - 1
#word2,cat2 - 0
我在在线教程或问题中找不到任何帮助。有没有简单的方法来获得补语。Data.table 解决方案会很好,因为使用 50M 行表。谢谢!