我有一个从数据仓库中提取的非常大的数据集。将数据集下载到我要运行 lme4 的盒子需要很长时间。我想知道我是否可以将数据处理成协方差矩阵,下载该数据(要小得多),并将其用作 lme4 的数据输入。我已经为使用 SAS 的多个回归模型做了类似的事情,并希望我可以为 lme4 创建这种类型的输入。
谢谢。
我有一个从数据仓库中提取的非常大的数据集。将数据集下载到我要运行 lme4 的盒子需要很长时间。我想知道我是否可以将数据处理成协方差矩阵,下载该数据(要小得多),并将其用作 lme4 的数据输入。我已经为使用 SAS 的多个回归模型做了类似的事情,并希望我可以为 lme4 创建这种类型的输入。
谢谢。
我不知道有什么方法可以使用观察到的协方差矩阵来拟合 lmer 模型。但如果目标是减少数据集大小以加快分析速度,则可能有更简单的方法。例如,如果您不需要随机效应的条件模式,并且样本量非常大,那么您可以尝试将模型拟合到逐渐变大的数据子集,直到估计固定效应和协方差随机效应矩阵“稳定”。这种方法在我的经验中效果很好,并且已经被其他人讨论过:
http://andrewgelman.com/2012/04/hierarchicalmultilevel-modeling-with-big-data/
这是另一个引文:
“与‘多模型’方法相关的是加速计算的简单近似。计算机越来越快——但模型越来越复杂!所以这些通用技巧可能仍然很重要。一个简单而通用的技巧就是打破将数据分成子集,对每个子集进行单独分析。例如,将 85 个县的氡气数据随机分成 30、30 和 25 个县的三组,分别对每组进行分析。格尔曼和希尔 (2007),第 547 页。