我有一个用例,我需要将大量 CSV 文件合并为一个,保持行的顺序。
例如:
> cat file1.csv:
1,bla,bla
2,bla,bla
> cat file2.csv
2,bla,bla
2,bla,bla
3,bla,bla
> cat desired_output.txt
1,bla,bla
2,bla,bla
2,bla,bla
2,bla,bla
3,bla,bla
目前,我正在以串行方式执行此操作,按顺序读取每个文件并附加到单个 concat 文件(使用二进制模式读取/写入以加快速度)。
由于我使用的机器有多个可用的内核,我想知道在基础Python 中是否有一些简单的方法(joblib/pandas 也可以)来创建某种聚合树,以便并行合并部分文件,与再次输出为按顺序排列的单个 CSV。