7

当我试图通过读取泡菜文件来创建一个 dask 数据帧时,我得到一个错误

import dask.dataframe as dd
ds_df = dd.read_pickle("D:\test.pickle")

AttributeError: 'module' object has no attribute 'read_pickle'

but  it works fine with read_csv

在 pandas 中,它像往常一样成功。

因此,如果我在那里做错了什么或在 dask 我们根本无法通过读取泡菜文件来创建数据框,请纠正我。

4

1 回答 1

12

请注意,dask.dataframe 没有完全实现 Pandas。您不应该期望每个 pandas 操作在 dask.dataframe 中都有一个模拟。

我们没有特别选择实现从pickle文件中读取,因为没有办法只读取pickle文件的一部分;一切都会立即转储到内存中。因此,pickle 文件在从磁盘中逐个读取大型数据集时没有太大价值。

如果您只是在寻找并行性,那么我建议您pandas.read_pickledask.dataframe.from_pandas

df = pd.read_pickle(...)
ddf = dd.from_pandas(df, npartitions=8)
于 2015-12-14T14:22:18.927 回答