当我想到笨重的时候,我会想到旧自行车或旧汽车之类的东西,但也可以通过迭代行来在 R 中做事。因此,下面的内容看起来比您在问题中发布的内容更笨拙,但它以我认为更加矢量化的方式寻求解决方案。以下似乎比您在上面发布的更时尚的代码快约 10 倍(并返回相同的结果)。
这个建议依赖于reshape2
包:
library(data.table)
library(reshape2)
我尽可能地添加了“c”column_choice
以使事情变得更有趣:
dat=data.table(a_data = c(55,56,57,65),
b_data = c(1,2,3,4),c_data=c(1000,1001,1002,1003),
column_choice = c("a", "c", "a", "b"))
以下是步骤,包装在一个函数中,为基准测试做准备。
myFun<-function(myDat){
# convert data.table to data.frame for melt()ing
dat1<-data.frame(myDat)
# add ID variable to keep track of things
dat1$ID<-seq_len(nrow(dat1))
# melt data - because of this line, it's important to only
# pass those variables that are used to select the appropriate value
# i.e., a_data,b_data,c_data,column_choice
dat2<-melt(dat1,id.vars=c("ID","column_choice"))
# Determine which value to choose: a, b, or c
dat2$chosen<-as.numeric(dat2$column_choice==substr(dat2$variable,
1,1))*dat2$value
# cast the data back into the original form
dat_cast<-dcast(dat2,ID+column_choice~.,
fun.aggregate=sum,value.var="chosen")
# rename the last variable
names(dat_cast)[ncol(dat_cast)]<-"chosen"
# merge data back together and return results as a data.table
datOUT<-merge(dat1,dat_cast,by=c("ID","column_choice"),sort=FALSE)
return(data.table(datOUT[,c(names(myDat),"chosen")]))
}
这是您打包到函数中的解决方案:
petesFun<-function(myDat){
datOUT=myDat[, data.table(.SD,
chosen=.SD[[paste0(.SD$column_choice, "_data")]]),
by=1:nrow(myDat)]
datOUT$nrow = NULL
return(datOUT)
}
这看起来比myFun
. 然而,基准测试结果显示出很大的差异:
制作一个更大的data.table:
test.df<-data.frame(lapply(dat,rep,100))
test.dat<-data.table(test.df)
和基准:
library(rbenchmark)
benchmark(myRes<-myFun(test.dat),petesRes<-petesFun(test.dat),
replications=25,columns=c("test", "replications", "elapsed", "relative"))
# test replications elapsed relative
# 1 myRes <- myFun(test.dat) 25 0.412 1.00000
# 2 petesRes <- petesFun(test.dat) 25 5.429 13.17718
identical(myRes,petesRes)
# [1] TRUE
我建议可以用不同的方式解释“笨重”:)