我有三个文件,每个文件包含近 30 万条记录。已经编写了一个 python 脚本来处理这些具有一些业务逻辑的文件,并能够成功创建输出文件。此过程在 5 分钟内完成。
我正在使用相同的脚本来处理具有大量数据的文件(所有三个输入文件都包含大约 3000 万条记录)。现在处理需要几个小时并保持运行很长时间。
因此,我正在考虑根据唯一 ID 的最后两位数字将文件分成 100 个小块,并对其进行并行处理。是否有任何数据管道包可用于执行此操作?
顺便说一句,我在我的 VDI 机器上运行这个过程。
我有三个文件,每个文件包含近 30 万条记录。已经编写了一个 python 脚本来处理这些具有一些业务逻辑的文件,并能够成功创建输出文件。此过程在 5 分钟内完成。
我正在使用相同的脚本来处理具有大量数据的文件(所有三个输入文件都包含大约 3000 万条记录)。现在处理需要几个小时并保持运行很长时间。
因此,我正在考虑根据唯一 ID 的最后两位数字将文件分成 100 个小块,并对其进行并行处理。是否有任何数据管道包可用于执行此操作?
顺便说一句,我在我的 VDI 机器上运行这个过程。