我通过大量参数组合(20-40k)模拟合理大小的数据集(10-20mb)。每个数据集 x 参数集都被推送mclapply
,结果是list
每个项目包含输出数据(作为列表项 1)和用于生成该结果的参数作为列表项 2(其中该列表的每个元素都是一个参数)。
我刚刚浏览了一个 81K 列表(但必须以 30k 块运行它们),结果列表每个大约 700 mb。我已将它们存储为.rdata
文件,但可能会将它们重新保存为.Rda
. 但是每个文件都需要永远读入R
. 这里是否有最佳实践,尤其是对于长期存储?
理想情况下,我会将所有内容都保留在一个列表中,但mclapply
会抛出一个关于无法序列化向量的错误,并且这么大的工作将永远在集群上花费(分成 3 种方式,每个工作需要 3 小时)。但是有几个结果文件results1a.rdata
,,,results2b.rdata
也results3c.rdata
似乎效率低下。