问题标签 [dask-delayed]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1183 浏览

python - 从生成器创建一个 dask bag

我想从生成器列表中创建一个dask.Bag(或)。dask.Array问题是生成器(在评估时)对于内存来说太大了。

注意list_of_generators就是这样 - 发电机还没有被消耗(还)。

我的问题是,在创建delayed_array生成器时会消耗掉并且 RAM 已经耗尽。有没有办法在Bag不首先使用它们的情况下将这些长列表放入其中,或者至少以块的形式使用它们以保持较低的 RAM 使用率?

NNB 我可以将生成器写入磁盘,然后将文件加载到磁盘中Bag- 但我想我可以用它dask来解决这个问题?

0 投票
1 回答
388 浏览

python - 在 dask 中设计计算图

到目前为止,我已经使用 dask withget和字典来定义我的任务的依赖关系图。但这意味着我必须从一开始就定义我的所有图表,现在我想不时添加新任务(依赖于旧任务)。

我已经阅读了这个distributed包,它看起来很合适。我已经看到了两个可能的选项来定义我的图表:

  1. 使用delayed, 并定义每个任务之间的依赖关系:

    /li>
  2. 使用map/ submit,并执行以下操作:

    /li>

你觉得什么更合适?谢谢!

0 投票
1 回答
319 浏览

pandas - 如何避免使用 from_delayed 构建的预排序 DataFrame 上的 set_index?

我试图让表达式 'df.resample('1T', how='mean').sum()' 在 Dask 中工作,但是遇到了一个问题,似乎 Dask 需要我在执行重采样之前的 DataFrame。我收到如下错误...

下面是我正在使用的 python 代码。由于我的延迟对象返回的 pandas DF 已经被时间戳索引,我的期望是 Dask 从这些 DF 的时间戳索引推断/构造一个索引,而不是我必须显式设置一个。虽然,我不确定在这种情况下如何调用显式 set_index (要传递的参数是什么?)。在元数据框(如下注释行)上设置 pd.DatetimeIndex 有效。手动构建索引并将其提供给 meta 是唯一现实的方法吗?我错过了什么吗?

0 投票
1 回答
81 浏览

dask - Dask 可以并行化函数内的内容吗?

我有一个用python编写的函数。我想知道该函数内的代码是否可并行化,我能否以某种方式并行化该函数内的代码而不在该函数内进行 dask API 调用?

我在考虑 dask.delayed 是否可以帮助我。但我认为它并行化了函数的多次执行,但我想并行化函数的内部内容。甚至可以使用 dask 吗?

0 投票
1 回答
1244 浏览

dask - 在集群上运行的 Dask 程序中找不到文件错误

我有 4 台机器,M1、M2、M3 和 M4。调度程序、客户端、工作程序在 M1 上运行。我在 M1 中放了一个 csv 文件。其余的机器是工人。

当我在 dask 中使用 read_csv 文件运行程序时。它给了我错误,找不到文件

0 投票
0 回答
173 浏览

bokeh - Bokeh UI 无法在另一台主机上使用 DASK

我在一个有 4 台机器的集群上用散景运行了 dask。现在我打开了 dask ui 页面,位于:8787,

我们可以看到图表等不存在 Empty UI

但是正常的文字和简单的图形都有 日志

我在控制台中收到此错误。 错误

0 投票
1 回答
364 浏览

python - Dask延迟/ dask数组无响应

我有一个分布式 dask 集群设置,我用它来加载和转换一堆数据。奇迹般有效。

我想用它做一些并行处理。这是我的功能

这是我正在尝试做的单处理器版本:

工作正常,但需要几个小时。这是我在黎明时做的事情:

即使它运行all_corr[1].compute(),它也只是坐在那里不响应。当我中断内核时,它似乎卡在/distributed/utils.py:

~/.../lib/python3.6/site-packages/distributed/utils.py 同步(循环,函数,*args,**kwargs)

关于调试这个有什么建议吗?


其他事情:

  • 如果我用较小的mat(el=1000)运行它,它运行良好。
  • 如果我做el = 5000,它会挂起。
  • 如果我中断内核并使用 再次运行它el = 1000,它就会挂起。
0 投票
1 回答
422 浏览

pandas - dask 如何定义并行操作并返回具有不同形状的数据帧的自定义(时间折叠)函数

我正在尝试实现一个时间折叠函数,以“映射”到一个 dask 数据帧的各个分区,这反过来又改变了相关数据帧的形状(或者生成一个改变形状的新数据帧)。这就是我已经走了多远。在计算上返回的结果“res”是一个包含 3 个延迟对象的列表。当我尝试在循环中计算它们中的每一个(最后两行代码)时,这会导致“TypeError:'DataFrame' object is not callable”在浏览完map_partitions 的示例之后,我还尝试更改输入 DF(就地) 在没有返回值的函数中,这会导致与 NoneType 类似的 TypeError。我错过了什么?

此外,查看可视化(附加)我觉得有必要将单独计算(折叠)的分区减少到单个 DF 中。我该怎么做呢?

0 投票
1 回答
5615 浏览

dask - Dask For 循环并行

我正在尝试找到正确的语法来使用延迟 dask 的 for 循环。我找到了几个教程和其他问题,但没有一个适合我的条件,这是非常基本的。

首先,这是并行运行 for 循环的正确方法吗?

这产生了

如果我串行运行它,

它实际上更快。

我看过一些例子,其中说 Dask 有少量开销,但这似乎需要足够长的时间来证明,不是吗?

我的实际 for 循环涉及更繁重的计算,我在其中为各种目标构建模型。

0 投票
0 回答
170 浏览

dask - 使用 dask.delayed 实现递归函数

如何使用 dask.delayed 或其他一些 dask API 成功实现合并排序。因此,并行性会变得更快。