这是我面临的问题:
- 我正在处理一个大小约为 100G 的文本文件。
- 我试图通过将文件拆分为数百个较小的文件并并行处理它们来改善运行时间。
- 最后,我将生成的文件按顺序重新组合在一起。
文件读/写时间本身需要几个小时,所以我想找到一种方法来改进以下内容:
cat file1 file2 file3 ... fileN >> newBigFile
- 这需要双倍的磁盘空间 - file1……- fileN占用 100G,然后再- newBigFile占用 100Gb,然后- file1……- fileN被删除。
- 数据已经在 - file1...- fileN中,- cat >>当我真正需要的只是数百个文件重新出现为 1 个文件时,会产生读写时间...