r - 我使用 plyr 对吗？我似乎使用了太多的内存

Question

我有以下有点大的数据集：

 > dim(dset)
 [1] 422105     25
 > class(dset)
 [1] "data.frame"
 >

不做任何事情，R 进程似乎需要大约 1GB 的 RAM。

我正在尝试运行以下代码：

  dset <- ddply(dset, .(tic), transform,
                date.min <- min(date),
                date.max <- max(date),
                daterange <- max(date) - min(date),
                .parallel = TRUE)

运行该代码，RAM 使用量猛增。它完全饱和了 60GB 的 RAM，在 32 核机器上运行。我究竟做错了什么？

score 12 · Accepted Answer

data.table如果性能是一个问题，那么从同名包中切换到使用 s 可能是一个好主意。他们很快。你会做一些大致相当于这样的事情：

library(data.table)
dat <- data.frame(x = runif(100),
                  dt = seq.Date(as.Date('2010-01-01'),as.Date('2011-01-01'),length.out = 100),
                  grp = rep(letters[1:4],each = 25))

dt <- as.data.table(dat)
key(dt) <- "grp"

dt[,mutate(.SD,date.min = min(dt),
               date.max = max(dt),
               daterange = max(dt) - min(dt)), by = grp]

score 10 · Accepted Answer

这是该问题的另一种应用data.table，说明了它的速度有多快。（注意：这使用dset，data.frame由 Brian Diggs 在他的回答中构造，除了 30000 而不是 10 级tic）。

（这比@joran 的解决方案快得多的原因是它避免使用.SD，而是直接使用列。样式与有点不同plyr，但它通常会带来巨大的加速。另一个例子，请参见data.tableWiki : (a) 将此作为建议 #1 ；并且 (b) 显示了删除.SD) 的代码的 50 倍加速。

library(data.table)
system.time({
    dt <- data.table(dset, key="tic")
    # Summarize by groups and store results in a summary data.table
    sumdt <- dt[ ,list(min.date=min(date), max.date=max(date)), by="tic"]
    sumdt[, daterange:= max.date-min.date]
    # Merge the summary data.table back into dt, based on key
    dt <- dt[sumdt]
})
# ELAPSED TIME IN SECONDS
# user  system elapsed 
# 1.45    0.25    1.77

score 4 · Accepted Answer

我想到了几件事。

首先，我会把它写成：

dset <- ddply(dset, .(tic), summarise,
                date.min = min(date),
                date.max = max(date),
                daterange = max(date) - min(date),
                .parallel = TRUE)

好吧，实际上，我可能会避免重复计算最小/最大日期并写

dset <- ddply(dset, .(tic), function(DF) {
              mutate(summarise(DF, date.min = min(date),
                               date.max = max(date)),
                     daterange = date.max - date.min)},
              .parallel = TRUE)

但这不是你要问的重点。

使用您的尺寸的虚拟数据集

n <- 422105
dset <- data.frame(date=as.Date("2000-01-01")+sample(3650, n, replace=TRUE),
    tic = factor(sample(10, n, replace=TRUE)))
for (i in 3:25) {
    dset[i] <- rnorm(n)
}

这在我的笔记本电脑上运行舒适（不到 1 分钟）。事实上，plyr与创建虚拟数据集相比，该步骤花费的时间更少。所以它不可能交换到你看到的大小。

第二种可能性是如果有大量的唯一值tic。这可能会增加所需的大小。但是，当我尝试将可能的唯一tic值数量增加到 1000 时，它并没有真正放慢速度。

最后，它可能是并行化中的某些东西。我没有为注册并行后端foreach，所以它只是在做串行方法。也许这会导致你的记忆爆炸。

score 1 · Accepted Answer

数据框中是否有许多因子水平？我发现这种类型的过度内存使用在 adply 和可能的其他 plyr 函数中很常见，但可以通过删除不必要的因素和级别来补救。如果将大数据框读入 R，请确保在导入中将 stringsAsFactors 设置为 FALSE：

dat = read.csv(header=TRUE, sep="\t", file="dat.tsv", stringsAsFactors=FALSE)

然后分配您实际需要的因素。

我还没有调查哈德利的消息来源以找出原因。

r - 我使用 plyr 对吗？我似乎使用了太多的内存

4 回答 4

Related

Reference