我必须在一个大数据集上运行一些回归模型和描述。我有一个包含大约 500 个文件(更新:txt 文件)的文件夹,我想合并它们,总共 250GB。
我知道如何合并文件夹中的所有文件,但是尽管我在 128RAM 服务器上运行它,但我一直在内存不足。
我正在寻找有关如何使用 RI 以可管理的方式(如果可能)加载/合并这些文件的任何提示/建议,我一直在研究诸如“ff”和“bigmemory”之类的包,这些会为我提供解决方案吗?
我必须在一个大数据集上运行一些回归模型和描述。我有一个包含大约 500 个文件(更新:txt 文件)的文件夹,我想合并它们,总共 250GB。
我知道如何合并文件夹中的所有文件,但是尽管我在 128RAM 服务器上运行它,但我一直在内存不足。
我正在寻找有关如何使用 RI 以可管理的方式(如果可能)加载/合并这些文件的任何提示/建议,我一直在研究诸如“ff”和“bigmemory”之类的包,这些会为我提供解决方案吗?