r - 在 R 中处理大数据集的最佳方法

Question

我必须在一个大数据集上运行一些回归模型和描述。我有一个包含大约 500 个文件（更新：txt 文件）的文件夹，我想合并它们，总共 250GB。

我知道如何合并文件夹中的所有文件，但是尽管我在 128RAM 服务器上运行它，但我一直在内存不足。

我正在寻找有关如何使用 RI 以可管理的方式（如果可能）加载/合并这些文件的任何提示/建议，我一直在研究诸如“ff”和“bigmemory”之类的包，这些会为我提供解决方案吗？

score 0 · Accepted Answer

我建议使用 ff 和 biglm 包。后者允许您通过将较小的数据块加载到 RAM 中来对存储在磁盘上的整个数据集（使用 ff）运行回归。用于read.table.ffdf()将单独的 txt 文件转换为磁盘上的 ff 文件。请参阅帮助文件中的示例，了解chunk.ffdf()如何使用biglm().

r - 在 R 中处理大数据集的最佳方法

1 回答 1

Related

Reference