问题标签 [dask]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6464 浏览

dask - dask df.col.unique() 与 df.col.drop_duplicates()

在 dask 和有什么区别

两者都返回一个包含 的独特元素的系列df.col。索引有所不同,unique结果由 1..Ndrop_duplicates索引,而由任意外观的数字序列索引。

返回的索引有什么意义drop_duplicates

如果索引不重要,是否有任何理由使用另一个?

0 投票
2 回答
302 浏览

dask - 优化 dask 系列过滤 - Series.isin() 的惰性版本

我目前在更大的计算中嵌入了以下模式

哪里seq3是一个布尔系列。性能似乎可以接受,但它很丑陋并且使用compute()力评估,可能会消除并行性的机会。简单的说

seq1.isin(seq2[seq3].unique())

不起作用,文档说 to 的参数isin必须是一个(我认为是 Numpy)数组。

有没有更好的方法来编写上述代码?如果seq1seq2相同怎么办?

0 投票
0 回答
449 浏览

python - 使用 dask 读取 csv 文件时出错

我正在学习如何使用 dask.dataframe 模块读取多个 csv 文件,当尝试读取这些文件时,ValueError: cannot convert float NaN to integer会抛出错误:

我的代码如下:

因此,每年看起来像这样:

0 投票
1 回答
2731 浏览

python - 在dask中将csv导入数据框时命名列

当我在 Python 中使用 dask 将 csv 导入数据框时,我想命名列。我使用的代码如下所示:

我想为每列使用一个带有名称的数组:

名称= ['贡品','percent_countries_active','num_wars','num_tributes','战争','war_to_tribute_ratio','US_wealth','UK_wealth','NZ_wealth']

这可以直接做吗?

0 投票
1 回答
2647 浏览

python - 使用 dask 模块读取大的 txt 文件

我正在尝试使用 dask 读取大量数据,如下所示

虽然这工作正常并且我得到了一组分区,但出于某种原因,每当我尝试如下设置和索引时:

我的机器内存不足,我不知道为什么

0 投票
1 回答
3537 浏览

python-2.7 - 对 Python dask 数组对象的项分配

我创建了一个 Python dask 数组,我正在尝试修改数组的一部分,如下所示:

这种修改 dask 数组的尝试会引发异常:

有没有办法在不引发异常的情况下修改 dask 数组切片?

0 投票
1 回答
385 浏览

python - Python:dask数组的点积

我正在尝试做非常大的 2 个 dask 数组 X(35000 x 7500)和 Y(7500 x 10)的点积。由于点积也将非常大,我将其存储在 hdf5

但是第二个命令即使将近 1 个小时也没有给出任何输出。怎么了?有更快的技术吗?创建 X 和 Y 时是否存在“块”问题?

0 投票
2 回答
480 浏览

python - 对 dask 数组的数组操作

我有两个 dask 数组,即 a 和 b。我得到a和b的点积如下

但是当我这样做时

壳牌停止工作。我什至不能杀死它。Sigmoid 如下所示:

0 投票
2 回答
3243 浏览

python - Dask 数据帧如何处理大于内存的数据集?

数据框的 Dask 包的文档说:

Dask 数据帧的外观和感觉类似于 pandas 数据帧,但使用多个线程对大于内存的数据集进行操作。

但稍后在同一页面中:

一个 dask DataFrame 由几个沿索引分隔的内存中 pandas DataFrame 组成。

Dask 是否依次从磁盘读取不同的 DataFrame 分区并执行计算以适应内存?它会在需要时将一些分区溢出到磁盘吗?一般来说,Dask 是如何管理数据的内存<--> 磁盘 IO 来实现大于内存的数据分析的呢?

我尝试在 10M MovieLens 数据集上执行一些基本计算(例如平均评分),我的笔记本电脑(8GB RAM)开始交换。

0 投票
2 回答
3364 浏览

python - 沿 dask 数组的轴应用函数

我正在分析来自气候模型模拟的海洋温度数据,其中 4D 数据阵列(时间、深度、纬度、经度;dask_array如下所示)通常具有 (6000, 31, 189, 192) 的形状和约 25GB 的大小(因此我希望使用 dask;我一直在尝试使用 numpy 处理这些数组时遇到内存错误)。

我需要在每个级别/纬度/经度点沿时间轴拟合三次多项式并存储得到的 4 个系数。因此chunksize=(6000, 1, 1, 1),我设置了每个网格点都有一个单独的块。

这是我获取三次多项式系数的函数(time_axis轴值是在别处定义的全局 1D numpy 数组):

(所以在这种情况下,numpy.polyfit返回一个长度为 4 的列表)

这是我认为需要将其应用于每个块的命令:

因此时间轴现在消失了(因此drop_axis=0),并且在它的位置有一个新的系数轴(长度为 4)。

当我运行这个命令时,我得到IndexError: tuple index out of range了,所以我想知道我在哪里/如何误解了map_blocks?