3

我正在使用 dask read_parquet 读取文件列表并将这些数据帧连接起来并写入某个文件。在连接期间,dask 是否在连接时将所有数据读取到内存中,或者它只加载模式的连接(我正在与轴 0 连接)?

提前致谢

4

1 回答 1

3

“默认情况下,Dask DataFrame 是惰性的”请参阅文档,因此除非您触发它,否则compute它只是使用方案。

import pandas as pd
import dask.dataframe as dd
import numpy as np

df1 = pd.DataFrame(np.random.randn(10,2))
df2 = pd.DataFrame(np.random.randn(10,3))

ddf1 = dd.from_pandas(df1, npartitions=2)
ddf2 = dd.from_pandas(df2, npartitions=2)

ddf = dd.concat([ddf1, ddf2])
print(ddf)
Dask DataFrame Structure:
                     0        1        2
npartitions=4                           
               float64  float64  float64
                   ...      ...      ...
                   ...      ...      ...
                   ...      ...      ...
                   ...      ...      ...
Dask Name: concat, 8 tasks

于 2020-05-21T01:36:43.690 回答