我delayed
用来读取许多大型 CSV 文件:
import pandas as pd
def function_1(x1, x2):
df_d1 = pd.read_csv(x1)
# Some calculations on df_d1 using x2.
return df_d1
def function_2(x3):
df_d2 = pd.read_csv(x3)
return df_d2
def function_3(df_d1, df_d2):
# some calculations and merging data-sets (output is "merged_ds").
return merged_ds
function_1
: 导入数据集 1 并进行一些计算。function_2
: 导入数据集 2。function_3
:合并数据集和一些计算。
接下来,我使用一个循环来调用这些delayed
函数。我有很多 CSV 文件,每个文件都超过 500MB。这是使用 DASK ( delayed
) 完成我的任务的合适程序吗?