1

如果我有一个 dask 数据框 df. 现在我对其进行一些计算。

数学上,

df1 = f1(df)

df2 = f2(df1)

df3 = f3(df1)

现在,如果我跑步df2.compute(),现在之后,如果我跑步df1.compute()。如何阻止 dask 重新计算结果df1

以另一种情况为例,如果我运行df3.compute(),则df2.compute()。我如何告诉 dask 在运行时使用df1(在 中计算df3.compute())的已计算值df2.compute()

4

1 回答 1

1

您可以使用dask.persist计算或计算的子图创建一个 dask 数据框。

如果您使用的是本地调度程序,那么您应该查看 dask.cache.Cache

from dask.cache import Cache
cache = Cache(4e9).register()
于 2018-07-02T11:44:48.143 回答