我需要创建约 110 个双精度为 19347 x 19347 的协方差矩阵,然后将它们加在一起。
这本身并不是很困难,对于较小的矩阵,以下代码可以正常工作。
covmat <- matrix(0, ncol=19347, nrow=19347)
files<-list.files("path/to/folder/")
for(name in files){
text <- readLines(paste("path/to/folder/", name, sep=""), n=19347, encoding="UTF-8")
for(i in 1:19347){
for(k in 1:19347){
covmat[i, k] <- covmat[i,k] + (as.numeric(text[i]) * as.numeric(text[k]))
}
}
}
为了节省内存,我不计算每个单独的矩阵,而是在遍历每个文件时将它们加在一起。
问题是当我在需要使用的真实数据上运行它时,它花费的时间太长了。实际上没有那么多数据,但我认为这是一项 CPU 和内存密集型工作。因此运行它约 10 小时不会计算结果。
我曾考虑尝试使用 Map Reduce (AWS EMR),但我得出的结论是,我认为这不是 Map Reduce 问题,因为它不是大数据问题。但是,如果我做错了,这是我一直在使用的映射器和减速器的代码。
#Mapper
text <- readLines("stdin", n=4, encoding="UTF-8")
covmat <- matrix(0, ncol=5, nrow=5)
for(i in 1:5){
for(k in 1:5){
covmat[i, k] <- (as.numeric(text[i]) * as.numeric(text[k]))
}
}
cat(covmat)
#Reducer
trimWhiteSpace <- function(line) gsub("(^ +)|( +$)", "", line)
splitIntoWords <- function(line) unlist(strsplit(line, "[[:space:]]+"))
final <- matrix(0, ncol=19347, nrow=19347)
## **** could wo with a single readLines or in blocks
con <- file("stdin", open = "r")
while (length(line <- readLines(con, n = 1, warn = FALSE)) > 0) {
line <- trimWhiteSpace(line)
words <- splitIntoWords(line)
final <- final + matrix(as.numeric(words), ncol=19347, nrow=19347)
}
close(con)
cat(final)
谁能建议如何解决这个问题?
提前致谢
编辑
感谢下面一些评论者的大力帮助,我已经修改了代码,因此效率更高。
files<-list.files("path/to/file")
covmat <- matrix(0, ncol=19347, nrow = 19347)
for(name in files){
invec <- scan(paste("path/to/file", name, sep=""))
covmat <- covmat + outer(invec,invec, "*")
}
这是我正在尝试处理的文件的示例。
1 0.00114582882882883
2 -0.00792611711711709
... ...
19346 -0.00089507207207207
19347 -0.00704709909909909
在运行程序时,每个文件仍需要约 10 分钟。有人对如何加快速度有任何建议吗?
我有 8gb 的内存,当程序运行时,R 只使用了 4.5gb 的内存,并且有少量空闲。
我正在运行 Mac OS X Snow Leopard 和 R 64bit v. 2.15