有一个dask.DataFrame
消耗大约 100GB 内存的::
ddf = client.persist(ddf)
len(ddf_c.index)
# 246652596 rows
## Running some other code like groupby/aggregate etc
现在我想使用.loc
运算符过滤掉数据,但是运行以下命令后,RAM消耗为165GB:
ddf_c = ddf_c.loc[ddf_c.is_in_valid_set_of_combis == True]
ddf_c = client.persist(ddf_c) # Now we have 165GB RAM consumptioon
如何检查阻止 Dask 真正覆盖的打开/挂起/等待期货/任务/数据集ddf_c
dask.DataFrame
?
这是信息页面的样子:
('loc-series-b0f23c725a607fed56584d9e41e57de8', 77) 227.41 MB
[... around 50 entries ...]