9

假设我有一个data.table“融化”的形式,其中我有一个键、标识符和一个值

library(data.table)
library(reshape2)
DT = data.table(X = c(1:5, 1:4), Y = c(rep("A", 5), rep("B", 4)), Z = rnorm(9))
DT2 = data.table(dcast(DT, X~Y))

我怎样才能在里面执行那种自我加入data.table

> DT
   X Y           Z
1: 1 A -0.19790449
2: 2 A  0.17906116
3: 3 A  0.01821837
4: 4 A  0.17309716
5: 5 A  0.05962474
6: 1 B -0.24629468
7: 2 B  0.92285734
8: 3 B  0.66002573
9: 4 B -1.01403880
> DT2
   X           A          B
1: 1 -0.19790449 -0.2462947
2: 2  0.17906116  0.9228573
3: 3  0.01821837  0.6600257
4: 4  0.17309716 -1.0140388
5: 5  0.05962474         NA

旁白(主要是为 Arun 准备的): 这是我已经用于 melt 的解决方案(是在 Matthew D 的帮助下编写的,所以他应该有这段代码),我认为它完全复制了 melt,并且非常有效。另一方面,Dcast(或者应该是 dtcast?)要困难得多!

melt.data.table = function(data, id.vars, measure.vars,
                           variable.name = "variable",
                           ..., na.rm = FALSE, value.name = "value") {
  if(missing(id.vars)){
    id.vars = setdiff(names(data), measure.vars)
  }
  if(missing(measure.vars)){
    measure.vars = setdiff(names(data), id.vars)
  }

  dtlist = lapply(measure.vars, function(..colname) {
    data[, c(id.vars, ..colname), with = FALSE][, (variable.name) := ..colname]
  })

  dt = rbindlist(dtlist)
  setnames(dt, measure.vars[1], value.name)
  if(na.rm){
    return(na.omit(dt))
  } else {
    return(dt)
  }
}
4

1 回答 1

8

更新:melt和的更快版本dcast现在在data.table版本中实现(在 C 中) >= 1.9.0。查看这篇文章了解更多信息。

现在你可以这样做:

dcast.data.table(DT, X~Y)

dcast单独的情况下,目前,它必须完全写出来(因为它还不是 S3 通用的reshape2)。我们会尽快解决这个问题。因为melt,您可以melt(.)照常使用。


总体思路是这样的:

setkey(DT, X, Y)
DT[CJ(1:5, c("A", "B"))][, as.list(Z), by=X]

您可以将列命名为V1并使用.V2ABsetnames

但这在大数据或转换公式复杂时可能效率不高。或者更确切地说,我应该说,它可能会更有效率。我们正在寻找这样的实现,以将熔体和铸造集成到 data.table 中。在那之前,你可以像上面那样解决这个问题。

一旦我们在熔化/铸造方面取得重大进展,我将更新这篇文章。

于 2013-09-10T22:48:00.710 回答