1

有一个dask.DataFrame消耗大约 100GB 内存的::

ddf = client.persist(ddf)
len(ddf_c.index)
# 246652596 rows
## Running some other code like groupby/aggregate etc

现在我想使用.loc运算符过滤掉数据,但是运行以下命令后,RAM消耗为165GB:

ddf_c = ddf_c.loc[ddf_c.is_in_valid_set_of_combis == True]
ddf_c = client.persist(ddf_c) # Now we have 165GB RAM consumptioon

如何检查阻止 Dask 真正覆盖的打开/挂起/等待期货/任务/数据集ddf_c dask.DataFrame

这是信息页面的样子:

('loc-series-b0f23c725a607fed56584d9e41e57de8', 77)     227.41 MB 
[... around 50 entries ...]
4

1 回答 1

0

您可以在仪表板的“信息”页面中跟踪依赖关系(单击顶部的信息选项卡)

在你的情况下,我可能不会坚持到最后一步。

于 2020-08-08T01:16:58.237 回答