问题标签 [dask-delayed]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dask - dask 工作人员存储结果或文件的默认目录是什么?
dask-worker 维护临时文件的默认目录是什么,例如任务结果,或使用客户端上传文件()方法上传的下载文件。?
例如:-
python - 使用 dask 延迟创建字典值
我正在努力弄清楚如何延迟 dask 以处理涉及创建字典的特定工作流程。
这里的想法是 func1, func2, func3 可以同时彼此独立运行,我希望这些函数的结果是新字典中的值z
。
当我运行以下命令时,出现错误:
当我运行以下命令时,它会成功,但是结果是元组而不是字典。
如何计算结果以返回字典?我这样做对吗?
python - 组合字典时出现未指定长度的延迟对象不可迭代错误
我正在尝试使用 dask 并行构建字典,但我遇到了TypeError: Delayed objects of unspecified length are not iterable
.
我正在尝试同时计算add
,subtract
和multiply
,以便更快地构建字典。
这是一些代表我的用例的代码:
最后,当我运行时:
我在这里做错了什么/无法理解?
dask - 在 Dask 中将 Futures 作为参数传递
Future
将 a 传递给 Dask Delayed 函数以Future
保持机智的最佳方法是什么?换句话说,我们如何确保函数将获得实际Future
而不是它所代表的结果?
dask - 如何指定将镶木地板读入 Dask 数据帧的分区数?
我读了我的镶木地板数据如下:
我不能使用dd.read_parquet
,因为我的镶木地板是分区的,我想避免加载一些分类。
我在这里有两个问题:
我如何告诉 Dask 我希望我的数据框拥有多少个分区?
Dask 默认会创建多少个分区?
python-3.x - 向dask提交循环计算并取回结果
我和我的同事已经设置、配置和测试 Dask 大约一周了,一切都运行良好(不能高度评价它的简单、直接和强大),但现在我们正试图利用它来进行测试,但遇到了问题。我们认为这是一个与语法和理解差距相关的相当简单的问题。非常感谢任何帮助它运行的帮助。任何支持我们加深对更优路径的理解也非常感谢。
我们与这两个帖子相当接近:
高流量:
- 在 pandas 中打开数据并清理它(我们计划将其移动到管道中)
- 从那里,将用于回归的清理数据集转换为 dask 数据框
- 设置 x & y 变量并创建所有唯一的 x 组合集
- 创建所有独特的公式(y ~ x1 + x2 +0)
- 通过线性 lassolars 模型使用数据运行每个单独的公式集,以获得每个公式的 AIC 以进行排名
目前的问题:
- 在 dask 集群上运行每个单独的公式集(~1700 个公式)和数据(1 个不随每次运行而变化的单个数据集)并返回结果
- 优化计算并返回最终数据
代码:
dask - 我们可以创建一个拥有多台 CPU 机器和多台 GPU 机器的 Dask 集群吗?
我们可以一起创建一个包含一些 CPU 和一些 GPU 机器的 dask-cluster。如果是,如何控制某个任务只能在CPU机器上运行,或者其他类型的任务只能在GPU机器上运行,如果没有指定,它应该选择哪台机器空闲。?
dask 支持这种类型的集群吗?控制任务在特定 CPU/GPU 机器上运行的命令是什么?
python - 如何在 rpy2 中使用延迟的 Dask?
我正在尝试使用 Dask,特别是 dask 延迟以使用 rpy2 和 R 中的预测包并行生成时间序列预测。我的过程仅在使用 1 个核心时有效,但我得到了
当使用超过 1 个核心的 dask 延迟时。用于重现此问题的代码如下所示:
使用 dask delay 循环遍历数据帧中的每个时间序列并变成一个时间序列
作品:
不起作用:
python-requests - 使用 dask 通过请求进行抓取
我喜欢 dask 的简单性,很想用它来刮当地的超市。我的 multiprocessing.cpu_count() 是 4,但是这段代码只实现了 2 倍的加速。为什么?
sorting - 在 Dask 中排序
我想在 dask 中找到pandas.dataframe.sort_value函数的替代方案。
我是通过set_index来的,但它会在单个列上排序。
如何对 Dask 数据框的多列进行排序?