3

当使用.SD将函数应用于dt's 列的子集时,我似乎找不到正确的方法来处理我有重复列名的情况......例如

#  Make some data
set.seed(123)
dt <- data.table( matrix( sample(6,16,repl=T) , 4 ) )
setnames(dt , rep( letters[1:2] , 2 ) )
#   a b a b
#1: 2 6 4 5
#2: 5 1 3 4
#3: 3 4 6 1
#4: 6 6 3 6

#  Use .SDcols to multiply both column 'a' specifying them by numeric position
dt[ , lapply( .SD , `*`  , 2 ) , .SDcols = which( names(dt) %in% "a" ) ]
#    a  a
#1:  4  4
#2: 10 10
#3:  6  6
#4: 12 12

.SDcols当是列名的字符向量时,我无法使用它,所以我尝试了数字位置(which( names(dt) %in% "a" )给出一个向量[1] 1 3),但它似乎也只是乘以第一a列。难道我做错了什么?

.SDcols 先进的。指定 .SD 中包含的 x 列。可能是字符列名或数字位置。

这些也返回了与上面相同的结果......

dt[ , lapply( .SD ,function(x) x*2 ) , .SDcols = which( names(dt) %in% "a" ) ]
dt[ , lapply( .SD ,function(x) x*2 ) , .SDcols = c(1,3) ]

packageVersion("data.table")
#[1] ‘1.8.11’
4

2 回答 2

1

这个怎么样

dt[, "a"] * 2
##    a a.1
## 1  4   8
## 2 10   6
## 3  6  12
## 4 12   6

更详细的讨论

https://chat.stackoverflow.com/transcript/message/12783493#12783493

于 2013-11-06T12:11:23.107 回答
1

从 1.9.4 开始,这现在按预期工作。来自新闻:

data.tables具有重复列的一致子集规则。简而言之,如果直接提供索引“j”或 in .SDcols,则仅返回这些列(如果提供 -.SDcols或,则将其删除!j)。相反,如果给出了列名并且该列不止一次出现,那么很难决定在子集上保留哪个以及删除哪个。因此,要删除,该列的所有出现都将被删除,并且要保留,每次总是返回第一列。也关闭#5688#5008。请注意,by=在重复列上使用聚合可能仍然无法给出预期的结果,因为它可能无法在正确的列上运行。

基本上,如果你这样做:

dt[, lapply(.SD, `*`, 2), .SDcols=c("a", "a")]
#     a  a
# 1:  4  4
# 2: 10 10
# 3:  6  6
# 4: 12 12

它仍然会给出意想不到的结果,因为很难说出你每次提到的“a” - 所以总是选择第一个。

但是,如果您明确指定(就像您在 Q 中所做的那样):

dt[, lapply(.SD, `*`, 2), .SDcols=which( names(dt) %in% "a" )]
#     a  a
# 1:  4  8
# 2: 10  6
# 3:  6 12
# 4: 12  6
于 2014-06-19T01:32:33.930 回答