我正在使用 dask read_parquet 读取文件列表并将这些数据帧连接起来并写入某个文件。在连接期间,dask 是否在连接时将所有数据读取到内存中,或者它只加载模式的连接(我正在与轴 0 连接)?
提前致谢
我正在使用 dask read_parquet 读取文件列表并将这些数据帧连接起来并写入某个文件。在连接期间,dask 是否在连接时将所有数据读取到内存中,或者它只加载模式的连接(我正在与轴 0 连接)?
提前致谢
“默认情况下,Dask DataFrame 是惰性的”请参阅文档,因此除非您触发它,否则compute
它只是使用方案。
import pandas as pd
import dask.dataframe as dd
import numpy as np
df1 = pd.DataFrame(np.random.randn(10,2))
df2 = pd.DataFrame(np.random.randn(10,3))
ddf1 = dd.from_pandas(df1, npartitions=2)
ddf2 = dd.from_pandas(df2, npartitions=2)
ddf = dd.concat([ddf1, ddf2])
print(ddf)
Dask DataFrame Structure:
0 1 2
npartitions=4
float64 float64 float64
... ... ...
... ... ...
... ... ...
... ... ...
Dask Name: concat, 8 tasks