我没有使用 data.table 的经验,所以我不知道我的问题是否有解决方案(至少 30 分钟在 Google 上没有给出答案),但它就在这里。
使用 data.frame 我经常使用以下命令来检查唯一值的观察次数:
df$Obs=with(df, ave(v1, ID-Date, FUN=function(x) length(unique(x))))
使用data.table时有没有对应的方法?
我没有使用 data.table 的经验,所以我不知道我的问题是否有解决方案(至少 30 分钟在 Google 上没有给出答案),但它就在这里。
使用 data.frame 我经常使用以下命令来检查唯一值的观察次数:
df$Obs=with(df, ave(v1, ID-Date, FUN=function(x) length(unique(x))))
使用data.table时有没有对应的方法?
就在这里。令人高兴的是,您已经询问了data.table
v1.8.2 中添加的最新功能之一:
:=
现在实现了按组 (FR#1491),并且通过引用对新列进行子分配现在自动添加列(NA
在子分配不涉及的位置初始化)(FR#1997)。:=
by group 可以和所有类型的 组合i
,所以:=
by group包括 grouping byi
和 byby
。由于:=
按组是通过引用,它应该比任何(直接或间接)cbind
将分组结果发送到 DT 的方法要快得多,因为根本不会复制(大)DT。这是一种简短而自然的语法,可以与其他查询结合使用。
DT[,newcol:=sum(colB),by=colA]
在您的示例 iiuc 中,它应该类似于:
DT[, Obs:=.N, by=ID-Date]
代替 :
df$Obs=with(df, ave(v1, ID-Date, FUN=function(x) length(unique(x))))
请注意,:=
对于大型数据集(较小的数据集将有很多小组),按组可以很好地扩展。
查看?":="
并搜索 data.table 标记以获取“参考”