问题标签 [dask]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2699 浏览

python - Python:更改 dask 数组的 dtype

下面是一个 dask 数组

我想将 dtype 更改为 float96 of x. 怎么做?

0 投票
1 回答
706 浏览

python - dask数组的内存错误

我正在实现输入和输出矩阵非常大的神经网络,所以我使用 dask 数组来存储它们。

X是 32000 x 7500 的输入矩阵,y是相同维度的输出矩阵。

下面是具有 1 个隐藏层的神经网络代码:

现在我尝试降低功能成本,如下所示:

但是当i达到 120 左右时,它给了我错误:

MemoryError当我这样做时它也会给出nn.W1.compute()

0 投票
1 回答
385 浏览

python - map_block 和 map_overlap 之间的处理时间差异是由于 dask.array 到 np.array 的转换吗?

介绍

我有一个ImgStack由 42 个平面组成的图像堆栈 ( ),每个平面 2048x2048 px 和一个用于分析的函数:

我确定使用 dask(在我的计算机上)处理数组的最有效方法是制作chunks=(21,256,256).

当我运行时map_blocks

时间= 1.7090258598327637

相反,当我跑步时map_overlap

时间= 228.19104409217834

我猜大的时间差异是由于在 map_overlap 中从 dask.array 到 np.array 的转换,因为如果我将转换步骤添加到 map_block 脚本,则执行时间变得可比较。

时间= 209.68917989730835

问题

所以最好的方法是保留 dask.array 但是当我将数据保存在 h5 文件中时问题出现了:

时间= 243.1597340106964

但是如果我保存相应的 np.array

时间= 时间= 4.887580871582031e-05

问题

所以我希望能够在尽可能短的时间内运行过滤和保存数组。有没有办法加快从 dask.array--> np.array() 的转换或加快 da.to_hdf5 的转换速度?

谢谢!任何评论将不胜感激。

0 投票
1 回答
204 浏览

python - Python dask 程序无法产生输出,即使它似乎在计算

我对为什么我的 dask 程序没有产生任何输出感到困惑,它只是在提交后挂起。我已指定使用进程而不是线程,并且可以看到所有内核在提交时启动(如此处建议:dask 计算未并行执行),因此它似乎在计算但从未完成。我只是想在长文本文件列表上运行一个简单的正则表达式。我错过了一些明显的东西吗?

0 投票
1 回答
380 浏览

python-3.x - 你如何为 NFS 文件使用 dask + 分布式?

根据Matthew Rocklin 的关于使用 Dask 的分布式数据帧的帖子,我正在尝试在我的集群中分布一些汇总统计计算。设置集群dcluster ...工作正常。笔记本里面,

我正在阅读的文件位于所有工作机器都可以访问的 NFS 挂载上。在这一点上,我可以看看df.head()例如,一切看起来都是正确的。从博客文章中,我认为我应该能够做到这一点:

但这是一个错误:

当数据帧来自普通文件系统而不是 HDFS 时,分配数据帧的正确方法是什么?

0 投票
1 回答
1747 浏览

distributed-computing - 使用 Dask 从文件系统/S3 并行读取文件块?

我正在整理一个概念证明,我想在分布式环境中使用 PyCuda 处理大型字符数据文件(每个任务一个文件约 8GB) - 具体来说是 AWS。我知道 HDFS 会分割数据文件并将其分发给工作人员,但我试图让我的环境尽可能简单,如果不需要,我宁愿不必安装 Hadoop。

我最近观看了来自 Continuum Analytics 的几个关于他们的 Dask 框架的网络研讨会,看起来它可以满足我的需要。鉴于上述段落和 Dask 框架,当前对文件系统的建议是什么?我是坚持使用 HDFS 还是有更好/更简单的解决方案?

0 投票
1 回答
4449 浏览

python - 我如何真正让 dask 计算延迟或基于 dask 容器的结果列表?

我有一个简单的可并行化任务,即为跨多个文件拆分的许多表独立计算结果。我可以构建延迟或 dask.dataframe 列表(并且也尝试过使用,例如 dict),但我无法获得所有要计算的结果(我可以使用 dask 图形样式字典获取单个结果.get(),但同样不能轻松计算所有结果)。这是一个最小的例子:

相似地:

我想得到 [3, 3],这是我基于延迟的集合文档所期望的。

对于我真正的问题,我实际上想在 HDF5 文件中的表上进行计算,但鉴于我可以使用它,dask.get()我很确定我已经指定了我的 deferred / dask 数据帧步骤。

我会对直接生成字典的解决方案感兴趣,但我也可以只将 (key, value) 元组列表返回到dict(),这可能不会对性能造成巨大影响。

0 投票
3 回答
4347 浏览

dask - 来自 DataFrame 的 Dask 数组

有没有办法轻松地将数值的 DataFrame 转换为数组?类似于valuespandas DataFrame。我似乎无法使用提供的 API 找到任何方法来执行此操作,但我认为这是一种常见操作。

0 投票
1 回答
186 浏览

python - 如何在 dask 任务图中使用命名参数

在创建 dask 任务图时,如何使用命名参数创建调用?例如:

这行不通。

0 投票
2 回答
72 浏览

python - 触发一系列并行任务

对于这个 dask 代码:

我想array通过执行延迟任务来访问所有元素。但我不能打电话array.compute(),因为array它不是一个函数。如果我做

那么每个任务是并行执行还是仅在终止a[1]后才被触发?a[0]有没有更好的方法来编写这段代码?