r - R 中的 GLM 对象占用的 RAM 比 GLM 对象的对象大小更多

Question

我正在尝试将多个 GLM 对象保存在列表中。一个 GLM 对象在大型数据集上进行训练，但是通过将 GLM 对象中所有不必要的数据设置为 NULL 来减小对象的大小。问题是我遇到了 RAM 问题，因为 R 保留的 RAM 比 GLM 对象的大小要多得多。有人知道为什么会出现这个问题以及我该如何解决这个问题？在此保存对象的背后会导致文件大于对象大小。

例子：

> glm_full <- glm(formula = formule , data = dataset, family = binomial(), model = F, y = F)
> glm_full$data <- glm_full$model <- glm_full$residuals <- glm_full$fitted.values <- glm_full$effects <- glm_full$qr$qr <- glm_full$linear.predictors <- glm_full$weights <- glm_full$prior.weights <- glm_full$y <- NULL
> rm(list= ls()[!(ls() %in% c('glm_full'))])
> object.size(glm_full)
172040 bytes
> gc()
           used  (Mb) gc trigger   (Mb)  max used   (Mb)
Ncells   944802  50.5    3677981  196.5   3862545  206.3
Vcells 83600126 637.9  503881514 3844.4 629722059 4804.4
> rm(glm_full)
> gc()
          used (Mb) gc trigger   (Mb)  max used   (Mb)
Ncells  944208 50.5    2942384  157.2   3862545  206.3
Vcells 4474439 34.2  403105211 3075.5 629722059 4804.4

在这里您可以看到 R 为 GLM 对象保留 RAM，在环境中保存多个 GLM 对象会导致 RAM 不足的问题。

score 1 · Accepted Answer

对此的粗略解释是，glm将指向环境和事物的指针隐藏在对象内部深处glm（以及许多地方）的环境中。

你需要能够用你的做glm什么？即使您已经消除了模型的很多“脂肪”，您的对象大小仍然会随着您的数据大小线性增长，并且当您通过存储多个glm对象来复合时，遇到 RAM 限制是一个明显的问题。

这是一个功能，可以让您切掉几乎所有不必要的东西，最好的部分是glm无论您的数据有多大，对象大小都将保持不变。

stripGlmLR = function(cm) {
  cm$y = c()
  cm$model = c()

  cm$residuals = c()
  cm$fitted.values = c()
  cm$effects = c()
  cm$qr$qr = c()  
  cm$linear.predictors = c()
  cm$weights = c()
  cm$prior.weights = c()
  cm$data = c()


  cm$family$variance = c()
  cm$family$dev.resids = c()
  cm$family$aic = c()
  cm$family$validmu = c()
  cm$family$simulate = c()
  attr(cm$terms,".Environment") = c()
  attr(cm$formula,".Environment") = c()

  cm
}

一些注意事项：

您可以model$family完全取消，并且该predict函数仍将返回其默认值（因此，predict(model, newdata = data))将起作用）。但是，predict(model, newdata=data, type = 'response')会失败。response您可以通过反向链接函数传递链接值来恢复：在逻辑回归的情况下，这是 sigmoid 函数sigmoid(x) = 1/(1 + exp(-x))。（不确定type = 'terms'）

最重要的是，除了predict你可能想对glm模型做的任何其他事情，在精简版本上都将失败（所以summary(),anova()和step()都是不行的）。因此，明智的做法是从glm对象中提取所有这些信息，然后运行该stripGlmLR函数。

学分：Nina Zumel对glm对象内存分配的精彩分析

r - R 中的 GLM 对象占用的 RAM 比 GLM 对象的对象大小更多

1 回答 1

Related

Reference