我有以下内容:
像数据框中行的哈希一样工作的环境。例如,环境“inc”具有键“hello”get("hello", envir = inc)
并将返回“row1”“row2”“row50”,其中这些是数据框中行的名称。在为环境中的键选择这些行后,我想对它们执行 colSums。
该环境大约有 400,000 个条目,我想根据这些 colSums 创建一个包含 400,000 行的新数据框。我的工作代码基本上使用 lapply/foreach 来执行此操作,并且我已经在一小部分数据上使用了它……但是速度非常慢。如...它已经使用 doMC 在 3 个内核上运行了 20 分钟,但仍未完成。这是代码:
incCounts <- foreach(key = ls(inc)) %dopar% {
transNames <- get(key, envir = inc)
transCounts <- df[transNames, ]
if ( ! is.null(dim(transCounts)) )
transCounts <- colSums(transCounts)
return(transCounts)
}
incCounts <- as.data.frame(t(simplify2array(incCounts)))
编辑:这是我试图用 data.frame 和 data.table 做的一个例子:
library(data.table)
set.seed(20)
transEnv <- new.env(hash = TRUE)
assign("hash1", paste("trans", 2:4, sep = ""), envir = transEnv)
assign("hash2", paste("trans", c(1, 3), sep = ""), envir = transEnv)
df <- data.frame(matrix(rnorm(5 * 4), nrow = 4, ncol = 5))
rownames(df) <- paste("trans", 1:4, sep = "")
colSums(df[transEnv$hash1, ]) # what I want
X1 X2 X3 X4 X5
0.9476963 -3.2149230 0.7603257 -1.8494967 1.7569055
dt <- data.table(trans = rownames(df), df)
setkey(dt, trans)
# This isn't working as I expected...
dt[transEnv$hash1, list(sum(X1), sum(X2), sum(X3), sum(X4), sum(X5))]
trans V1 V2 V3 V4 V5
[1,] trans2 -0.1444402 -1.4720633 -0.6135086 1.108451 1.24556891
[2,] trans3 0.7222297 -0.5961595 -0.2163115 -1.097342 0.08785472
[3,] trans4 0.3699069 -1.1467001 1.5901458 -1.860606 0.42348190
任何帮助将不胜感激!谢谢!