我有一个大数据集
dim(dt)
[1] 422096 162
dt
键为 的 data.table在哪里tic
。我正在尝试为每组我有多少丢失的条目进行衡量。这些组是时间序列,并且 dt 包含一个date
列,它是一个 R 日期,以及一个book_lev
列,我感兴趣的变量。
到目前为止,这是我的代码:
dt <- dt[sumdt]
sumdt <- dt[ ,list(min.date=min(date), max.date=max(date)), by="tic"]
sublengths <- dt[,list(tslen=length(date)),by=tic, mult="last"]
bt2 <- dt[sublengths, mult="first"]
bt2[, max.year:=extractyear(max.date)]
bt2[, min.year:=extractyear(min.date)]
bt2[, data.fullness:=tslen/(max.year - min.year + 1)]
dt <- dt[bt2]
我的想法是创建这个 data.fullness 值,如果时间序列中没有漏洞,它应该等于 1。我意识到我的book_lev
专栏中可能有一些 NA,所以我想进一步限制。另外,总的来说,我是 data.tables 的新手,我想看看是否有更好的方法来编写我刚刚写的内容。
可以使用 R 的load
命令加载的数据的小样本可在此处获得:http ://econsteve.com/r/dt_sample.Robj