r - 如何最好地将 data.table 的一列与同一 data.table 的另一列连接起来？

Question

我的数据

我有一个 data.table DT，其中当前 ( F0YR) 和下一个 ( F1YR) 财政年度结束 (FYE) 编码为整数。由于每个下一个 FYE 最终都会成为当前的 FYE，因此整数将同时在列F1YR和F0YR中。此外，我的数据包含每月观察结果，因此相同的 FYE 将多次出现在数据集中：

library(data.table)
DT <- data.table(ID     = rep(c("A", "B"), each=9),
                 MONTH  = rep(100L:108L, times=2),
                 F0YR   = rep(c(1L, 4L, 7L), each=3, times=2),
                 F1YR   = rep(c(4L, 7L, 9L), each=3, times=2),
                 value  = c(rep(1:5, each=3), 6, 6, 7),
                 key    = "ID,F0YR")
DT
      ID MONTH F0YR F1YR value
 [1,]  A   100    1    4     1
 [2,]  A   101    1    4     1
 [3,]  A   102    1    4     1
 [4,]  A   103    4    7     2
 [5,]  A   104    4    7     2
 [6,]  A   105    4    7     2
 [7,]  A   106    7    9     3
 [8,]  A   107    7    9     3
 [9,]  A   108    7    9     3
[10,]  B   100    1    4     4
[11,]  B   101    1    4     4
...

我想做的事

对于每个IDandF1YR组合，我想获得IDandF0YR组合的值。例如：A 公司的2值为FOYR==4。现在，我想要一个用于所有组合的附加列，ID=="A"它F1YR==4设置为 2，在已经存在的值 1 旁边。

我试过的

intDT <- DT[CJ(unique(ID), unique(F0YR)), list(ID, F0YR, valueNew = value), mult="last"]
setkey(intDT, ID, F0YR)
setkey(DT, ID, F1YR)
DT <- intDT[DT]
setnames(DT, c("F0YR.1", "F0YR"), c("F0YR", "F1YR"))
DT
      ID F1YR valueNew MONTH F0YR value
 [1,]  A    4        2   100    1     1
 [2,]  A    4        2   101    1     1
 [3,]  A    4        2   102    1     1
 [4,]  A    7        3   103    4     2
 [5,]  A    7        3   104    4     2
 [6,]  A    7        3   105    4     2
 [7,]  A    9       NA   106    7     3
 [8,]  A    9       NA   107    7     3
 [9,]  A    9       NA   108    7     3
[10,]  B    4        5   100    1     4
[11,]  B    4        5   101    1     4
...

（请注意，我mult="last"在这里使用是因为，虽然值应该只随着 F0YR 或 F1YR 的变化而变化，但有时它们不会变化，这只是我的决胜局）。

我想要的是

这看起来可以改进。首先，我必须复制我的 DT。其次，由于我加入的基本相同data.table，所以所有列名都具有相同的名称，我必须重命名它们。我认为这self join将是前进的道路，但我尝试了又尝试，无法得到一个好的解决方案。我希望那里有一些我看不到的简单的东西……有人知道吗？还是我的数据设置方式实际上很难（可能是因为我有每月观察，但只想加入每季度或每年变化的值）。

score 6 · Accepted Answer

在这样的用例中，“先聚合，然后加入”的口头禅通常会有所帮助。因此，从您的DT, 开始并使用 v1.8.1 ：

> agg = DT[,last(value),by=list(ID,F0YR)]
> agg
   ID F0YR V1
1:  A    1  1
2:  A    4  2
3:  A    7  3
4:  B    1  4
5:  B    4  5
6:  B    7  7

我之所以叫它，agg是因为我想不出更好的名字。在这种情况下，您想要last的并不是真正的聚合，但您知道我的意思。

然后DT按组引用更新。在这里，我们按分组i。

setkey(DT,ID,F1YR)
DT[agg,newcol:=V1]
    ID MONTH F0YR F1YR value newcol
 1:  A   100    1    4     1      2
 2:  A   101    1    4     1      2
 3:  A   102    1    4     1      2
 4:  A   103    4    7     2      3
 5:  A   104    4    7     2      3
 6:  A   105    4    7     2      3
 7:  A   106    7    9     3     NA
 8:  A   107    7    9     3     NA
 9:  A   108    7    9     3     NA
10:  B   100    1    4     4      5
11:  B   101    1    4     4      5
12:  B   102    1    4     4      5
13:  B   103    4    7     5      7
14:  B   104    4    7     5      7
15:  B   105    4    7     5      7
16:  B   106    7    9     6     NA
17:  B   107    7    9     6     NA
18:  B   108    7    9     7     NA

是对的吗？不确定我是否完全遵循。这些操作应该非常快，没有任何副本，并且应该扩展到大数据。至少，这是本意。

r - 如何最好地将 data.table 的一列与同一 data.table 的另一列连接起来？

我的数据

我想做的事

我试过的

我想要的是

1 回答 1

Related

Reference