我正在尝试对包含超过 4000000 行的 CSV 数据集中的两个因子变量执行固定效应回归。这些变量可以分别假设大约 140000 和 50000 个不同的整数值。
我最初尝试在具有 8 Gb 内存的 Linux 机器上使用 R 的 biglm 和 ff 包执行回归,如下所示;但是,这似乎需要太多内存,因为 R 抱怨必须分配一个大小大于我机器上最大值的向量。
library(biglm)
library(ff)
d <- read.csv.ffdf(file='data.csv', header=TRUE)
model = y~factor(a)+factor(b)-1
out <- biglm(model, data=d)
一些在线研究表明,由于因子是由 ff 加载到内存中的,如果存在许多因子值,后者不会显着提高内存使用率。
有没有人知道其他方法可以在我描述的数量级的数据集上执行上述回归,而不必求助于内存明显更多的机器?