问题标签 [dask-delayed]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

243 问题

0 投票

1 回答

1183 浏览

python - 从生成器创建一个 dask bag

我想从生成器列表中创建一个dask.Bag（或）。dask.Array问题是生成器（在评估时）对于内存来说太大了。

注意list_of_generators就是这样 - 发电机还没有被消耗（还）。

我的问题是，在创建delayed_array生成器时会消耗掉并且 RAM 已经耗尽。有没有办法在Bag不首先使用它们的情况下将这些长列表放入其中，或者至少以块的形式使用它们以保持较低的 RAM 使用率？

NNB 我可以将生成器写入磁盘，然后将文件加载到磁盘中Bag- 但我想我可以用它dask来解决这个问题？

2018-06-14T16:34:07.040

0 投票

1 回答

388 浏览

python - 在 dask 中设计计算图

到目前为止，我已经使用 dask withget和字典来定义我的任务的依赖关系图。但这意味着我必须从一开始就定义我的所有图表，现在我想不时添加新任务（依赖于旧任务）。

我已经阅读了这个distributed包，它看起来很合适。我已经看到了两个可能的选项来定义我的图表：

使用delayed, 并定义每个任务之间的依赖关系：
/li>
使用map/ submit，并执行以下操作：
/li>

你觉得什么更合适？谢谢！

python dask dask-distributed dask-delayed

2018-06-15T15:57:30.443

0 投票

1 回答

319 浏览

pandas - 如何避免使用 from_delayed 构建的预排序 DataFrame 上的 set_index？

我试图让表达式 'df.resample('1T', how='mean').sum()' 在 Dask 中工作，但是遇到了一个问题，似乎 Dask 需要我在执行重采样之前的 DataFrame。我收到如下错误...

下面是我正在使用的 python 代码。由于我的延迟对象返回的 pandas DF 已经被时间戳索引，我的期望是 Dask 从这些 DF 的时间戳索引推断/构造一个索引，而不是我必须显式设置一个。虽然，我不确定在这种情况下如何调用显式 set_index （要传递的参数是什么？）。在元数据框（如下注释行）上设置 pd.DatetimeIndex 有效。手动构建索引并将其提供给 meta 是唯一现实的方法吗？我错过了什么吗？

pandas dask dask-distributed dask-delayed

2018-06-18T14:02:23.997

0 投票

1 回答

81 浏览

dask - Dask 可以并行化函数内的内容吗？

我有一个用python编写的函数。我想知道该函数内的代码是否可并行化，我能否以某种方式并行化该函数内的代码而不在该函数内进行 dask API 调用？

我在考虑 dask.delayed 是否可以帮助我。但我认为它并行化了函数的多次执行，但我想并行化函数的内部内容。甚至可以使用 dask 吗？

dask dask-distributed dask-delayed

2018-06-20T12:53:07.927

0 投票

1 回答

1244 浏览

dask - 在集群上运行的 Dask 程序中找不到文件错误

我有 4 台机器，M1、M2、M3 和 M4。调度程序、客户端、工作程序在 M1 上运行。我在 M1 中放了一个 csv 文件。其余的机器是工人。

当我在 dask 中使用 read_csv 文件运行程序时。它给了我错误，找不到文件

dask dask-distributed dask-delayed dask.distributed

2018-06-22T11:33:28.050

0 投票

0 回答

173 浏览

bokeh - Bokeh UI 无法在另一台主机上使用 DASK

我在一个有 4 台机器的集群上用散景运行了 dask。现在我打开了 dask ui 页面，位于：8787，

我们可以看到图表等不存在 Empty UI

但是正常的文字和简单的图形都有日志

我在控制台中收到此错误。错误

bokeh dask dask-distributed dask-delayed dask.distributed

2018-06-26T07:35:24.367

0 投票

1 回答

364 浏览

python - Dask延迟/ dask数组无响应

我有一个分布式 dask 集群设置，我用它来加载和转换一堆数据。奇迹般有效。

我想用它做一些并行处理。这是我的功能

这是我正在尝试做的单处理器版本：

工作正常，但需要几个小时。这是我在黎明时做的事情：

即使它运行all_corr[1].compute()，它也只是坐在那里不响应。当我中断内核时，它似乎卡在/distributed/utils.py：

~/.../lib/python3.6/site-packages/distributed/utils.py 同步（循环，函数，*args，**kwargs）

关于调试这个有什么建议吗？

其他事情：

如果我用较小的mat（el=1000）运行它，它运行良好。
如果我做el = 5000，它会挂起。
如果我中断内核并使用再次运行它el = 1000，它就会挂起。

python dask dask-distributed dask-delayed

2018-06-27T02:00:04.153

0 投票

1 回答

422 浏览

pandas - dask 如何定义并行操作并返回具有不同形状的数据帧的自定义（时间折叠）函数

我正在尝试实现一个时间折叠函数，以“映射”到一个 dask 数据帧的各个分区，这反过来又改变了相关数据帧的形状（或者生成一个改变形状的新数据帧）。这就是我已经走了多远。在计算上返回的结果“res”是一个包含 3 个延迟对象的列表。当我尝试在循环中计算它们中的每一个（最后两行代码）时，这会导致“TypeError：'DataFrame' object is not callable”在浏览完map_partitions 的示例之后，我还尝试更改输入 DF（就地) 在没有返回值的函数中，这会导致与 NoneType 类似的 TypeError。我错过了什么？

此外，查看可视化（附加）我觉得有必要将单独计算（折叠）的分区减少到单个 DF 中。我该怎么做呢？

pandas dataframe dask dask-distributed dask-delayed

2018-06-28T09:14:09.297

0 投票

1 回答

5615 浏览

dask - Dask For 循环并行

我正在尝试找到正确的语法来使用延迟 dask 的 for 循环。我找到了几个教程和其他问题，但没有一个适合我的条件，这是非常基本的。

首先，这是并行运行 for 循环的正确方法吗？

这产生了

如果我串行运行它，

它实际上更快。

我看过一些例子，其中说 Dask 有少量开销，但这似乎需要足够长的时间来证明，不是吗？

我的实际 for 循环涉及更繁重的计算，我在其中为各种目标构建模型。

dask dask-delayed

2018-06-29T23:55:37.247

0 投票

0 回答

170 浏览

dask - 使用 dask.delayed 实现递归函数

如何使用 dask.delayed 或其他一些 dask API 成功实现合并排序。因此，并行性会变得更快。

dask dask-delayed

2018-06-30T07:59:52.783

1 2 3 4 5 6 7 8 9 10

问题标签 [dask-delayed]

Reference