问题标签 [dask]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
731 浏览

python - dask / pandas,如何绕过布尔标头错误

在博客文章/教程https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/之后,我使用了以下代码:

我收到以下错误:

如何绕过此 TypeError,或以正确格式输入 csv?再来一点...

使用:

给了我(如预期的那样):

但随后运行:

回报:

因此,如果我使用 header=None,它当然不会识别“名称”标题。我应该怎么做才能让 dask 识别标题?

0 投票
1 回答
973 浏览

python - 为什么在 dask 中运行 .compute() 会导致“致命的 Python 错误:GC 对象已被跟踪”

我正在使用带有 Python 2.7.10 和 Anaconda 2.4.0(64 位)的 Jupyter notebook 版本 4.0.6 运行 Windows 10

我正在关注https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/上的博客/教程:

最后一条语句导致在运行 Jupyter 的命令提示符会话中出现错误,如下所示:

致命的 Python 错误:GC 对象已被跟踪

阅读类似的问题,这可能是 dask 处理 Python 处理内存的源代码中的一个问题,我希望我只是遗漏了一些东西。

我在本教程中遇到了 headers 和 dask 的先前问题,必须运行:

没有帮助的类似问题:

致命的 Python 错误:GC 对象已被跟踪

调试 Python 致命错误:已跟踪 GC 对象

0 投票
2 回答
1399 浏览

python - 移动 dask 数据框中的所有行

在 Pandas 中,有一个方法 DataFrame.shift(n) 可以将数组的内容相对于索引移动 n 行,类似于 np.roll(a, n)。我似乎找不到与 Dask 一起使用类似行为的方法。我意识到使用 Dask 的分块系统可能难以管理行移位之类的事情,但我不知道有更好的方法将每一行与后续行进行比较。

我想做的是:

为了创建一个布尔系列,指示数据中符号变化的位置。(我知道该方法还会捕获从有符号值到零的变化)然后我将使用布尔系列来索引不同的 Dask 数据帧以进行绘图。

0 投票
1 回答
4723 浏览

python - 通过在 Python 的 dask 模块中读取 pickle 文件来创建 dask 数据框

当我试图通过读取泡菜文件来创建一个 dask 数据帧时,我得到一个错误

在 pandas 中,它像往常一样成功。

因此,如果我在那里做错了什么或在 dask 我们根本无法通过读取泡菜文件来创建数据框,请纠正我。

0 投票
2 回答
6969 浏览

python - 在 python dask 中使用分隔符读取 csv

我正在尝试DataFrame通过读取由 '#####' 5 个哈希分隔的 csv 文件来创建

代码是:

错误是:

那么如何摆脱它。

如果我遵循错误,那么我将不得不为每一列提供 dtype,但如果我有 100 多列,那么这是没有用的。

如果我在没有分隔符的情况下阅读,那么一切都很好,但到处都有#####。那么在计算到熊猫之后DataFrame,有没有办法摆脱它?

所以在这方面帮助我。

0 投票
2 回答
1109 浏览

pandas - 为什么 dask.dataframe compute() 结果在特定情况下会给出 IndexError?如何找到异步错误的原因?

由于数据量大,使用当前版本的dask ('0.7.5', github: [a1]) 时,我能够通过dask.dataframe api 执行分区计算。但是对于作为记录存储在 bcolz ('0.12.1', github: [a2]) 中的大型 DataFrame,我在执行此操作时遇到了 IndexError:

错误是(缩写的回溯输出):

实际上,只有在执行 dd.concat 操作时才会出现错误。就像是

正在工作。

但是,当在内存中读取部分数据时,在某些情况下也会出现此错误,至少对于分区长度 (npartition) >1 和特定数据大小而言。

请参阅完整的测试代码_test_dask_error.py和带有回溯的完整输出_test_out.txt

实际上,在那一步我停止了调查,因为我不知道如何在 async.py 中将这个错误调试为根本原因。当然,我会将其报告为错误(如果没有提示用户/使用错误)。但是:如何进行调试以找到根本原因?

_[a1]:_https://github.com/blaze/dask/tree/077b1b82ad03f855a960d252df2aaaa72b5b1cc5

_[a2]:_https://github.com/Blosc/bcolz/tree/562fd3092d1fee17372c11cadca54d1dab10cf9a

0 投票
2 回答
1816 浏览

python - 为什么 dask 中的点积比 numpy 慢

dask 中的点积似乎比 numpy 运行得慢得多:

有谁知道这可能是什么原因?我在这里有什么遗漏吗?

0 投票
2 回答
378 浏览

python - Python:为什么将 Dask 切片复制到 Numpy 数组会导致行数不匹配

将一段 dask 数组复制到 nparray 时出错,行数不匹配

结果:

我对 dask 不是很熟悉,我使用它是因为我的数据没有保存在 RAM 中,行差异与缓存或块大小有关吗?

0 投票
1 回答
192 浏览

python - Dask 数组 rfft 似乎不起作用

我正在尝试在一些大型阵列中做一些真正的 fft 并决定尝试 dask。我遇到了一个问题,无论我做什么,函数 dask.array.rfft 似乎都不起作用。这是一个最小的例子。

程序的输出是。

无论我尝试对 dx_rfft 执行什么操作,它都会返回相同的错误。我试过 Pythons 2 和 3 并且都有同样的问题。我错过了什么还是图书馆的错误?

0 投票
1 回答
3964 浏览

python - 正确选择 dask 数组的块规范

根据dask 文档,可以通过以下三种方式之一指定块:

  • 像 1000 这样的块大小
  • 像 (1000, 1000) 这样的块状
  • 沿所有维度的所有块的显式大小,例如 ((1000, 1000, 500), (400, 400))

您的块输入将被规范化并以第三种也是最明确的形式存储..

在尝试使用可视化()函数了解块的工作方式之后,我仍然不确定一些事情:

如果输入是标准化的,我选择哪种输入形式有关系吗?

Blocksize表示每个块的大小为 X,即1000。blockshape输入指定了什么?

给出块形输入时,参数的顺序会有所不同吗?它与数组/矩阵的形状有什么关系?