我正在尝试在 Python 中使用 Dask 合并许多大型数据集,以避免加载问题。我想保存为.csv
合并文件。事实证明,这项任务比想象的要难:
我用两个数据集组合了一个玩具示例然后我使用的代码如下:
import dask.dataframe as dd
import glob
import os
os.chdir('C:/Users/Me/Working directory')
file_list = glob.glob("*.txt")
dfs = []
for file in file_list:
ddf = dd.read_table(file, sep=';')
dfs.append(ddf)
dd_all = dd.concat(dfs)
如果我使用dd_all.to_csv('*.csv')
,我只需打印出两个原始数据集。如果我使用dd_all.to_csv('name.csv')
我会收到一条错误消息,指出该文件不存在。( FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Me\\Working directory\\name.csv\\1.part'
)
我可以检查是否dd_all.compute()
已成功创建使用合并数据集。