问题标签 [dask-delayed]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 从生成器创建一个 dask bag
我想从生成器列表中创建一个dask.Bag
(或)。dask.Array
问题是生成器(在评估时)对于内存来说太大了。
注意list_of_generators
就是这样 - 发电机还没有被消耗(还)。
我的问题是,在创建delayed_array
生成器时会消耗掉并且 RAM 已经耗尽。有没有办法在Bag
不首先使用它们的情况下将这些长列表放入其中,或者至少以块的形式使用它们以保持较低的 RAM 使用率?
NNB 我可以将生成器写入磁盘,然后将文件加载到磁盘中Bag
- 但我想我可以用它dask
来解决这个问题?
python - 在 dask 中设计计算图
到目前为止,我已经使用 dask withget
和字典来定义我的任务的依赖关系图。但这意味着我必须从一开始就定义我的所有图表,现在我想不时添加新任务(依赖于旧任务)。
我已经阅读了这个distributed
包,它看起来很合适。我已经看到了两个可能的选项来定义我的图表:
使用
/li>delayed
, 并定义每个任务之间的依赖关系:使用
/li>map
/submit
,并执行以下操作:
你觉得什么更合适?谢谢!
pandas - 如何避免使用 from_delayed 构建的预排序 DataFrame 上的 set_index?
我试图让表达式 'df.resample('1T', how='mean').sum()' 在 Dask 中工作,但是遇到了一个问题,似乎 Dask 需要我在执行重采样之前的 DataFrame。我收到如下错误...
下面是我正在使用的 python 代码。由于我的延迟对象返回的 pandas DF 已经被时间戳索引,我的期望是 Dask 从这些 DF 的时间戳索引推断/构造一个索引,而不是我必须显式设置一个。虽然,我不确定在这种情况下如何调用显式 set_index (要传递的参数是什么?)。在元数据框(如下注释行)上设置 pd.DatetimeIndex 有效。手动构建索引并将其提供给 meta 是唯一现实的方法吗?我错过了什么吗?
dask - Dask 可以并行化函数内的内容吗?
我有一个用python编写的函数。我想知道该函数内的代码是否可并行化,我能否以某种方式并行化该函数内的代码而不在该函数内进行 dask API 调用?
我在考虑 dask.delayed 是否可以帮助我。但我认为它并行化了函数的多次执行,但我想并行化函数的内部内容。甚至可以使用 dask 吗?
dask - 在集群上运行的 Dask 程序中找不到文件错误
我有 4 台机器,M1、M2、M3 和 M4。调度程序、客户端、工作程序在 M1 上运行。我在 M1 中放了一个 csv 文件。其余的机器是工人。
当我在 dask 中使用 read_csv 文件运行程序时。它给了我错误,找不到文件
python - Dask延迟/ dask数组无响应
我有一个分布式 dask 集群设置,我用它来加载和转换一堆数据。奇迹般有效。
我想用它做一些并行处理。这是我的功能
这是我正在尝试做的单处理器版本:
工作正常,但需要几个小时。这是我在黎明时做的事情:
即使它运行all_corr[1].compute()
,它也只是坐在那里不响应。当我中断内核时,它似乎卡在/distributed/utils.py:
~/.../lib/python3.6/site-packages/distributed/utils.py 同步(循环,函数,*args,**kwargs)
关于调试这个有什么建议吗?
其他事情:
- 如果我用较小的
mat
(el=1000)运行它,它运行良好。 - 如果我做
el = 5000
,它会挂起。 - 如果我中断内核并使用 再次运行它
el = 1000
,它就会挂起。
pandas - dask 如何定义并行操作并返回具有不同形状的数据帧的自定义(时间折叠)函数
我正在尝试实现一个时间折叠函数,以“映射”到一个 dask 数据帧的各个分区,这反过来又改变了相关数据帧的形状(或者生成一个改变形状的新数据帧)。这就是我已经走了多远。在计算上返回的结果“res”是一个包含 3 个延迟对象的列表。当我尝试在循环中计算它们中的每一个(最后两行代码)时,这会导致“TypeError:'DataFrame' object is not callable”在浏览完map_partitions 的示例之后,我还尝试更改输入 DF(就地) 在没有返回值的函数中,这会导致与 NoneType 类似的 TypeError。我错过了什么?
此外,查看可视化(附加)我觉得有必要将单独计算(折叠)的分区减少到单个 DF 中。我该怎么做呢?
dask - Dask For 循环并行
我正在尝试找到正确的语法来使用延迟 dask 的 for 循环。我找到了几个教程和其他问题,但没有一个适合我的条件,这是非常基本的。
首先,这是并行运行 for 循环的正确方法吗?
这产生了
如果我串行运行它,
它实际上更快。
我看过一些例子,其中说 Dask 有少量开销,但这似乎需要足够长的时间来证明,不是吗?
我的实际 for 循环涉及更繁重的计算,我在其中为各种目标构建模型。
dask - 使用 dask.delayed 实现递归函数
如何使用 dask.delayed 或其他一些 dask API 成功实现合并排序。因此,并行性会变得更快。