我有一个模拟,它有一个巨大的聚合并在中间组合步骤。我使用 plyr 的 ddply() 函数对这个过程进行了原型设计,该函数非常适合我的大部分需求。但是我需要这个聚合步骤更快,因为我必须运行 10K 模拟。我已经在并行扩展模拟,但如果这一步更快,我可以大大减少我需要的节点数量。
这是我正在尝试做的合理简化:
library(Hmisc)
# Set up some example data
year <- sample(1970:2008, 1e6, rep=T)
state <- sample(1:50, 1e6, rep=T)
group1 <- sample(1:6, 1e6, rep=T)
group2 <- sample(1:3, 1e6, rep=T)
myFact <- rnorm(100, 15, 1e6)
weights <- rnorm(1e6)
myDF <- data.frame(year, state, group1, group2, myFact, weights)
# this is the step I want to make faster
system.time(aggregateDF <- ddply(myDF, c("year", "state", "group1", "group2"),
function(df) wtd.mean(df$myFact, weights=df$weights)
)
)
感谢所有提示或建议!