问题标签 [dask]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3826 问题

0 投票

1 回答

6464 浏览

dask - dask df.col.unique() 与 df.col.drop_duplicates()

在 dask 和有什么区别

和

两者都返回一个包含的独特元素的系列df.col。索引有所不同，unique结果由 1..Ndrop_duplicates索引，而由任意外观的数字序列索引。

返回的索引有什么意义drop_duplicates？

如果索引不重要，是否有任何理由使用另一个？

dask

2016-03-07T06:12:20.830

0 投票

2 回答

302 浏览

dask - 优化 dask 系列过滤 - Series.isin() 的惰性版本

我目前在更大的计算中嵌入了以下模式

哪里seq3是一个布尔系列。性能似乎可以接受，但它很丑陋并且使用compute()力评估，可能会消除并行性的机会。简单的说

seq1.isin(seq2[seq3].unique())

不起作用，文档说 to 的参数isin必须是一个（我认为是 Numpy）数组。

有没有更好的方法来编写上述代码？如果seq1和seq2相同怎么办？

dask

2016-03-09T03:54:13.047

0 投票

0 回答

449 浏览

python - 使用 dask 读取 csv 文件时出错

我正在学习如何使用 dask.dataframe 模块读取多个 csv 文件，当尝试读取这些文件时，ValueError: cannot convert float NaN to integer会抛出错误：

我的代码如下：

因此，每年看起来像这样：

2016-03-17T12:40:22.230

0 投票

1 回答

2731 浏览

python - 在dask中将csv导入数据框时命名列

当我在 Python 中使用 dask 将 csv 导入数据框时，我想命名列。我使用的代码如下所示：

我想为每列使用一个带有名称的数组：

名称= ['贡品'，'percent_countries_active'，'num_wars'，'num_tributes'，'战争'，'war_to_tribute_ratio'，'US_wealth'，'UK_wealth'，'NZ_wealth']

这可以直接做吗？

python csv numpy dask

2016-03-17T13:37:39.750

0 投票

1 回答

2647 浏览

python - 使用 dask 模块读取大的 txt 文件

我正在尝试使用 dask 读取大量数据，如下所示

虽然这工作正常并且我得到了一组分区，但出于某种原因，每当我尝试如下设置和索引时：

我的机器内存不足，我不知道为什么

python python-2.7 dask

2016-03-18T09:10:29.953

0 投票

1 回答

3537 浏览

python-2.7 - 对 Python dask 数组对象的项分配

我创建了一个 Python dask 数组，我正在尝试修改数组的一部分，如下所示：

这种修改 dask 数组的尝试会引发异常：

有没有办法在不引发异常的情况下修改 dask 数组切片？

python-2.7 dask

2016-03-21T22:32:44.770

0 投票

1 回答

385 浏览

python - Python：dask数组的点积

我正在尝试做非常大的 2 个 dask 数组 X（35000 x 7500）和 Y（7500 x 10）的点积。由于点积也将非常大，我将其存储在 hdf5

但是第二个命令即使将近 1 个小时也没有给出任何输出。怎么了？有更快的技术吗？创建 X 和 Y 时是否存在“块”问题？

python hdf5 h5py dask

2016-03-25T14:12:37.950

0 投票

2 回答

480 浏览

python - 对 dask 数组的数组操作

我有两个 dask 数组，即 a 和 b。我得到a和b的点积如下

但是当我这样做时

壳牌停止工作。我什至不能杀死它。Sigmoid 如下所示：

python dask

2016-03-26T08:52:24.430

0 投票

2 回答

3243 浏览

python - Dask 数据帧如何处理大于内存的数据集？

数据框的 Dask 包的文档说：

Dask 数据帧的外观和感觉类似于 pandas 数据帧，但使用多个线程对大于内存的数据集进行操作。

但稍后在同一页面中：

一个 dask DataFrame 由几个沿索引分隔的内存中 pandas DataFrame 组成。

Dask 是否依次从磁盘读取不同的 DataFrame 分区并执行计算以适应内存？它会在需要时将一些分区溢出到磁盘吗？一般来说，Dask 是如何管理数据的内存<--> 磁盘 IO 来实现大于内存的数据分析的呢？

我尝试在 10M MovieLens 数据集上执行一些基本计算（例如平均评分），我的笔记本电脑（8GB RAM）开始交换。

python dask bigdata

2016-03-28T19:17:55.007

0 投票

2 回答

3364 浏览

python - 沿 dask 数组的轴应用函数

我正在分析来自气候模型模拟的海洋温度数据，其中 4D 数据阵列（时间、深度、纬度、经度；dask_array如下所示）通常具有 (6000, 31, 189, 192) 的形状和约 25GB 的大小（因此我希望使用 dask；我一直在尝试使用 numpy 处理这些数组时遇到内存错误）。

我需要在每个级别/纬度/经度点沿时间轴拟合三次多项式并存储得到的 4 个系数。因此chunksize=(6000, 1, 1, 1)，我设置了每个网格点都有一个单独的块。

这是我获取三次多项式系数的函数（time_axis轴值是在别处定义的全局 1D numpy 数组）：

（所以在这种情况下，numpy.polyfit返回一个长度为 4 的列表）

这是我认为需要将其应用于每个块的命令：

因此时间轴现在消失了（因此drop_axis=0），并且在它的位置有一个新的系数轴（长度为 4）。

当我运行这个命令时，我得到IndexError: tuple index out of range了，所以我想知道我在哪里/如何误解了map_blocks?

python dask

2016-03-29T03:48:12.263

1 2 3 4 5 6 7 8 9 10

问题标签 [dask]

Reference