r - 在 R 中的函数内保存单个对象：RData 文件大小非常大

Question

我正在尝试在 R 中保存精简的 GLM 对象（即所有“非必要”特征设置为 NULL，例如残差、prior.weights、qr$qr）。

例如，查看我需要执行此操作的最小对象：

print(object.size(glmObject))
168992 bytes
save(glmObject, "FileName.RData")

在全局环境中分配这个对象并保存会导致大约 6KB 的 RData 文件。

但是，我实际上需要在函数中创建和保存 glm 对象，该函数本身就在函数中。所以代码看起来像：

subFn <- function(DT, otherArg, ...){
                 glmObject <- glm(...)
                 save(glmObject,"FileName.RData")
}

mainFn <- function(DT, ...){ 
             subFn(DT, otherArg, ...)
}

mainFn(DT, ...)

尽管对象本身的大小相同，但这会导致大约 20 MB 的更大的 RData 文件。

所以我理解这是一个环境问题，但我很难准确地指出它是如何发生的以及为什么会发生。生成的文件大小似乎变化很大。我曾尝试使用 saveRDS，同样我也尝试通过 <<- 分配 glmObject 以使其成为全局对象，但似乎没有任何帮助。

我对 R 环境的理解显然不是很好，如果有人能提出解决这个问题的方法，我将不胜感激。谢谢。

score 8 · Accepted Answer

公式具有附加的环境。如果是全局环境或者包环境，是不保存的，如果不是可以重构的，就保存了。

glm结果通常包含公式，因此它们可以包含附加到该公式的环境。

你不需要glm证明这一点。试试这个：

formula1 <- y ~ x
save(formula1, file = "formula1.Rdata")

f <- function() {
   z <- rnorm(1000000)
   formula2 <- y ~ x
   save(formula2, file = "formula2.Rdata")
}
f()

当我运行上面的代码时，formula1.Rdata以 114 字节formula2.Rdata结束，而以 7.7 MB 结束。这是因为后者捕获了它创建的环境，并且包含大向量z。

为避免这种情况，请在保存公式之前清理您创建公式的环境。不要删除公式引用的内容（因为glm可能需要这些内容），但要删除不相关的内容（如z我的示例中）。看：

g <- function() {
   z <- rnorm(1000000)
   formula3 <- y ~ x
   rm(z)
   save(formula3, file = "formula3.Rdata")
}
g()

这给出formula3.Rdata了 144 个字节。

score 2 · Accepted Answer

当您将调用中的参数命名为时，您是否发现您有同样的问题save？

我用了：

subFn <- function(y, x){
             glmObject <- glm(y ~ x, family = "binomial")
             save(list = "glmObject", file = "FileName.RData")
}

mainFn <- function(y, x){ 
         subFn(y, x)
}

mainFn(y = rbinom(n = 10, size = 1, prob = 1 / 2), x = 1:10)

我看到文件“FileName.RData”是在我的工作目录中创建的。它的大小为 6.6 kb。

然后我使用：

load("FileName.RData")

将内容加载glmObject到我的全局环境中。

r - 在 R 中的函数内保存单个对象：RData 文件大小非常大

2 回答 2

Related

Reference