“dask-delayed”的相关标签问题

0 投票

0 回答

98 浏览

python - 在 DataFrame 中使用 dask 进行有效的条件成对行操作的正确方法

我有以下顺序代码：

但是数据框中的行数接近 10 ⁶。因此，我想以某种方式加快此操作。我正在考虑将 dask 与 group by 一起使用。以下是我的方法：

我不知道为什么，但我遇到了一个关键错误KeyError: 'l'。这也是使用 dask 的正确方法。

2019-03-20T07:45:04.393

0 投票

1 回答

2326 浏览

dask - 使用 dask.delayed 和 pandas.DataFrame 将 dask.bag 字典转换为 dask.dataframe

我正在努力将dask.bag字典转换dask.delayed pandas.DataFrames成最终的dask.dataframe

我有一个函数（make_dict）将文件读入一个相当复杂的嵌套字典结构，另一个函数（make_df）将这些字典转换为一个pandas.DataFrame（每个文件的结果数据帧约为 100 mb）。我想将所有数据框附加到一个dask.dataframe中以进行进一步分析。

到目前为止，我一直在使用dask.delayed对象来加载、转换和附加所有工作正常的数据（参见下面的示例）。但是对于未来的工作，我想将加载的字典存储在dask.bagusing 中dask.persist()。

我设法将数据加载到dask.bag中，从而生成一个 dicts 列表或pandas.DataFrame我可以在调用后在本地使用的列表compute()。但是，当我尝试将其dask.bag转换为dask.dataframeusingto_delayed()时，我遇到了一个错误（见下文）。

感觉好像我在这里遗漏了一些相当简单的东西，或者我的方法可能dask.bag是错误的？

下面的示例显示了我使用简化函数的方法并引发了相同的错误。任何有关如何解决此问题的建议表示赞赏。

我最终想使用分布式调度程序做什么：

dask dask-delayed

2019-03-22T11:15:10.630

0 投票

1 回答

322 浏览

dask - 如何在与提交它的机器不同的机器上获得 Dask 计算的结果？

我在 Django 服务器后面使用 Dask，这里总结了我的基本设置：https : //github.com/MoonVision/django-dask-demo/ 可以在这里找到 Dask 客户端：https ://github.com /MoonVision/django-dask-demo/blob/master/demo/daskmanager/daskmanager.py

我希望能够将任务的保存与提交它的服务器分开，以实现稳健性和可扩展性。我还想了解有关任务处理状态的更详细信息，现在即使任务正在处理，未来状态也始终处于待处理状态。粗略估计完成百分比也很好。

现在，如果 Web 服务器死了，客户端将被删除并且任务将停止，因为没有客户端仍然持有未来。我可以通过使用fire_and_forget来解决这个问题，但是我无法在任务完成时保存任务状态和结果。

我看到跟踪状态并在 fire_and_forget 后保存结果的方法：

我可以有一个调度程序插件，将所有传输发送到 AMPQ 服务器（RabbitMQ）。我喜欢它的健壮性，并且能够订阅调度程序输出的某些消息，并且知道每条消息都会被处理。我不确定如何使用这种方法自行获得结果。我可以手动将一个节点添加到每个图表的末尾以保存结果，但宁愿让它在幕后。
get_task_stream在单独的服务器上或以某种方式使用它。有了这个，如果服务器关闭，我似乎可能会错过一些消息，所以这似乎是一个更糟糕的选择 1。
其他选择？

实现这一目标的最佳方法是什么？

编辑：刚刚测试过，似乎当提交任务的客户端关闭时，它创建的所有期货都从处理转移到遗忘，即使调用 fire_and_forget。

dask dask-distributed dask-delayed

2019-04-04T10:26:59.377

0 投票

1 回答

296 浏览

dask - 如何在每个工作人员上延迟 dask 以允许顺序执行进程？

我需要工人一次处理一个任务，并在开始新的任务之前完成当前流程。我无法做到：（1）每个工人在任何时候最多运行一个任务，（2）让工人在开始新的程序之前完成一个程序；原子事务。

我在具有 40 个节点的集群上使用 dask.distributed Client；4 核和 15GB 内存。我处理的管道有大约 8-10GB 的任务，因此在一个工作上有两个任务将导致应用程序失败。

我试图分配我的工人资源和任务分配，dask-worker scheduler-ip:port --nprocs 1 --resources process=1但futures = [client.submit(func, f, resources={'process': 1}) for f in futures]没有成功。

我的代码如下：

截至目前，我有两种情况：

1-我运行所有输入并且应用程序以MemoryError

2-我运行一个子样本，但它运行如下：

加载(img-1)->加载(img-2)->foo(img-1)->加载(img-3)->...->保存(img-1)->保存(img-2 )->...

TLDR：这就是我想对每个工人做的事情：

加载(img-1)->foo(img-1)->保存(img-1)->加载(img-7)->...

dask dask-distributed dask-delayed

2019-04-12T06:18:26.957

0 投票

1 回答

42 浏览