问题标签 [dask]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python:更改 dask 数组的 dtype
下面是一个 dask 数组
我想将 dtype 更改为 float96 of x
. 怎么做?
python - dask数组的内存错误
我正在实现输入和输出矩阵非常大的神经网络,所以我使用 dask 数组来存储它们。
X
是 32000 x 7500 的输入矩阵,y
是相同维度的输出矩阵。
下面是具有 1 个隐藏层的神经网络代码:
现在我尝试降低功能成本,如下所示:
但是当i
达到 120 左右时,它给了我错误:
MemoryError
当我这样做时它也会给出nn.W1.compute()
python - map_block 和 map_overlap 之间的处理时间差异是由于 dask.array 到 np.array 的转换吗?
介绍
我有一个ImgStack
由 42 个平面组成的图像堆栈 ( ),每个平面 2048x2048 px 和一个用于分析的函数:
我确定使用 dask(在我的计算机上)处理数组的最有效方法是制作chunks=(21,256,256)
.
当我运行时map_blocks
:
时间= 1.7090258598327637
相反,当我跑步时map_overlap
时间= 228.19104409217834
我猜大的时间差异是由于在 map_overlap 中从 dask.array 到 np.array 的转换,因为如果我将转换步骤添加到 map_block 脚本,则执行时间变得可比较。
时间= 209.68917989730835
问题
所以最好的方法是保留 dask.array 但是当我将数据保存在 h5 文件中时问题出现了:
时间= 243.1597340106964
但是如果我保存相应的 np.array
时间= 时间= 4.887580871582031e-05
问题
所以我希望能够在尽可能短的时间内运行过滤和保存数组。有没有办法加快从 dask.array--> np.array() 的转换或加快 da.to_hdf5 的转换速度?
谢谢!任何评论将不胜感激。
python - Python dask 程序无法产生输出,即使它似乎在计算
我对为什么我的 dask 程序没有产生任何输出感到困惑,它只是在提交后挂起。我已指定使用进程而不是线程,并且可以看到所有内核在提交时启动(如此处建议:dask 计算未并行执行),因此它似乎在计算但从未完成。我只是想在长文本文件列表上运行一个简单的正则表达式。我错过了一些明显的东西吗?
python-3.x - 你如何为 NFS 文件使用 dask + 分布式?
根据Matthew Rocklin 的关于使用 Dask 的分布式数据帧的帖子,我正在尝试在我的集群中分布一些汇总统计计算。设置集群dcluster ...
工作正常。笔记本里面,
我正在阅读的文件位于所有工作机器都可以访问的 NFS 挂载上。在这一点上,我可以看看df.head()
例如,一切看起来都是正确的。从博客文章中,我认为我应该能够做到这一点:
但这是一个错误:
当数据帧来自普通文件系统而不是 HDFS 时,分配数据帧的正确方法是什么?
distributed-computing - 使用 Dask 从文件系统/S3 并行读取文件块?
我正在整理一个概念证明,我想在分布式环境中使用 PyCuda 处理大型字符数据文件(每个任务一个文件约 8GB) - 具体来说是 AWS。我知道 HDFS 会分割数据文件并将其分发给工作人员,但我试图让我的环境尽可能简单,如果不需要,我宁愿不必安装 Hadoop。
我最近观看了来自 Continuum Analytics 的几个关于他们的 Dask 框架的网络研讨会,看起来它可以满足我的需要。鉴于上述段落和 Dask 框架,当前对文件系统的建议是什么?我是坚持使用 HDFS 还是有更好/更简单的解决方案?
python - 我如何真正让 dask 计算延迟或基于 dask 容器的结果列表?
我有一个简单的可并行化任务,即为跨多个文件拆分的许多表独立计算结果。我可以构建延迟或 dask.dataframe 列表(并且也尝试过使用,例如 dict),但我无法获得所有要计算的结果(我可以使用 dask 图形样式字典获取单个结果.get()
,但同样不能轻松计算所有结果)。这是一个最小的例子:
相似地:
我想得到 [3, 3],这是我基于延迟的集合文档所期望的。
对于我真正的问题,我实际上想在 HDF5 文件中的表上进行计算,但鉴于我可以使用它,dask.get()
我很确定我已经指定了我的 deferred / dask 数据帧步骤。
我会对直接生成字典的解决方案感兴趣,但我也可以只将 (key, value) 元组列表返回到dict()
,这可能不会对性能造成巨大影响。
dask - 来自 DataFrame 的 Dask 数组
有没有办法轻松地将数值的 DataFrame 转换为数组?类似于values
pandas DataFrame。我似乎无法使用提供的 API 找到任何方法来执行此操作,但我认为这是一种常见操作。
python - 如何在 dask 任务图中使用命名参数
在创建 dask 任务图时,如何使用命名参数创建调用?例如:
这行不通。
python - 触发一系列并行任务
对于这个 dask 代码:
我想array
通过执行延迟任务来访问所有元素。但我不能打电话array.compute()
,因为array
它不是一个函数。如果我做
那么每个任务是并行执行还是仅在终止a[1]
后才被触发?a[0]
有没有更好的方法来编写这段代码?