r - R：选择data.table中的列范围

Question

我正在尝试处理 data.table 的文档，但我想征求反馈意见，我在推理以下内容时出错了。

(1) 我想从 data.table 中选择一系列列来创建一个新的 data.table。

(2) 另外，我想只取每组的第一个值。关于第一个问题，我认为这里给出了答案，但是关于列号。但我想使用列名，我认为这是 data.table 的主要优势（和卖点）之一。

这是一个示例数据集。

DT <- data.table(ID=c(101,101,101,102,103,104,104),
                 "year.1" = c(1,5,3,2,3,4,8), 
                 "year.2" = c(4,5,6,NA,1,2,3), 
                 "year.3" = c(1,2,3,7,9,8,0), 
                 "year.4" = c(4,5,NA,1,2,6,9))
setkey(DT,ID)

实际上，我有更多的专栏，而不仅仅是“年”。

# ALL OF THESE DONT WORK AND END IN ERRORS
# To extract a range of columns I have tried this:
dt.sub <- DT[,list(year.1:year.3,ID)]
dt.sub <- DT[,c("year.1":"year.3",ID), with=FALSE] # I know shouldn't work since 
# "with=FALSE" is only intended in combination with := according to the documentation
dt.sub <- DT[,lapply(SD),.SDcols= for (i in 1:3) paste0("year.",i) ]

对于第二个问题：如果我希望 dt.sub 仅包含每个组的第一个观察值，我希望我可以使用“mult”参数。但是，这也以与我预期不同的方式起作用。仅在一列上使用示例：

dt.sub1 <- DT[,year.1, by=ID,mult="first",]

这没有提供任何错误，但也不仅仅给出了组的第一行。我知道这样的解决方法：

dt.sub1 <- unique(DT[,year.1, by=ID])

确实提供了预期的输出，但我觉得我错过了该mult选项的一些重要内容。

score 7 · Accepted Answer

# (1)
DT[, c(paste0('year.', 1:3), 'ID'), with = F]

# (2) 
DT[, year.1[1], by = ID]

mult在合并/连接两个 data.tables 时使用，并表示存在多个匹配项时要执行的操作。因此，正如@Arun 指出的那样，mult用于您的第二个问题的方法是（假设您已经被键入ID）：

DT[J(unique(ID)), list(ID, year.1), mult = 'first']

r - R：选择data.table中的列范围

1 回答 1

Related

Reference