我有一个向我返回数据框的函数。我正在尝试通过使用 dask 来并行使用此功能。
我将数据帧的延迟对象附加到列表中。但是,我的代码的运行时间在有和没有 dask.delayed 的情况下是相同的。
我使用 functools 中的 reduce 函数pd.merge
来合并我的数据框。
关于如何提高运行时的任何建议?
可视化图表和代码如下。
from functools import reduce d = [] for lot in lots: lot_data = data[data["LOTID"]==lot] trmat = delayed(LOT)(lot, lot_data).transition_matrix(lot) d.append(trmat) df = delayed(reduce)(lambda x, y: x.merge(y, how='outer', on=['from', "to"]), d)