0

我必须在一个大数据集上运行一些回归模型和描述。我有一个包含大约 500 个文件(更新:txt 文件)的文件夹,我想合并它们,总共 250GB。

我知道如何合并文件夹中的所有文件,但是尽管我在 128RAM 服务器上运行它,但我一直在内存不足。

我正在寻找有关如何使用 RI 以可管理的方式(如果可能)加载/合并这些文件的任何提示/建议,我一直在研究诸如“ff”和“bigmemory”之类的包,这些会为我提供解决方案吗?

4

1 回答 1

0

我建议使用 ff 和 biglm 包。后者允许您通过将较小的数据块加载到 RAM 中来对存储在磁盘上的整个数据集(使用 ff)运行回归。用于read.table.ffdf()将单独的 txt 文件转换为磁盘上的 ff 文件。请参阅帮助文件中的示例,了解chunk.ffdf()如何使用biglm().

于 2015-12-24T10:09:59.560 回答