问题标签 [dask]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - dask / pandas,如何绕过布尔标头错误
在博客文章/教程https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/之后,我使用了以下代码:
我收到以下错误:
如何绕过此 TypeError,或以正确格式输入 csv?再来一点...
使用:
给了我(如预期的那样):
但随后运行:
回报:
因此,如果我使用 header=None,它当然不会识别“名称”标题。我应该怎么做才能让 dask 识别标题?
python - 为什么在 dask 中运行 .compute() 会导致“致命的 Python 错误:GC 对象已被跟踪”
我正在使用带有 Python 2.7.10 和 Anaconda 2.4.0(64 位)的 Jupyter notebook 版本 4.0.6 运行 Windows 10
我正在关注https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/上的博客/教程:
最后一条语句导致在运行 Jupyter 的命令提示符会话中出现错误,如下所示:
致命的 Python 错误:GC 对象已被跟踪
阅读类似的问题,这可能是 dask 处理 Python 处理内存的源代码中的一个问题,我希望我只是遗漏了一些东西。
我在本教程中遇到了 headers 和 dask 的先前问题,必须运行:
没有帮助的类似问题:
python - 移动 dask 数据框中的所有行
在 Pandas 中,有一个方法 DataFrame.shift(n) 可以将数组的内容相对于索引移动 n 行,类似于 np.roll(a, n)。我似乎找不到与 Dask 一起使用类似行为的方法。我意识到使用 Dask 的分块系统可能难以管理行移位之类的事情,但我不知道有更好的方法将每一行与后续行进行比较。
我想做的是:
为了创建一个布尔系列,指示数据中符号变化的位置。(我知道该方法还会捕获从有符号值到零的变化)然后我将使用布尔系列来索引不同的 Dask 数据帧以进行绘图。
python - 通过在 Python 的 dask 模块中读取 pickle 文件来创建 dask 数据框
当我试图通过读取泡菜文件来创建一个 dask 数据帧时,我得到一个错误
在 pandas 中,它像往常一样成功。
因此,如果我在那里做错了什么或在 dask 我们根本无法通过读取泡菜文件来创建数据框,请纠正我。
python - 在 python dask 中使用分隔符读取 csv
我正在尝试DataFrame
通过读取由 '#####' 5 个哈希分隔的 csv 文件来创建
代码是:
错误是:
那么如何摆脱它。
如果我遵循错误,那么我将不得不为每一列提供 dtype,但如果我有 100 多列,那么这是没有用的。
如果我在没有分隔符的情况下阅读,那么一切都很好,但到处都有#####。那么在计算到熊猫之后DataFrame
,有没有办法摆脱它?
所以在这方面帮助我。
pandas - 为什么 dask.dataframe compute() 结果在特定情况下会给出 IndexError?如何找到异步错误的原因?
由于数据量大,使用当前版本的dask ('0.7.5', github: [a1]) 时,我能够通过dask.dataframe api 执行分区计算。但是对于作为记录存储在 bcolz ('0.12.1', github: [a2]) 中的大型 DataFrame,我在执行此操作时遇到了 IndexError:
错误是(缩写的回溯输出):
实际上,只有在执行 dd.concat 操作时才会出现错误。就像是
正在工作。
但是,当在内存中读取部分数据时,在某些情况下也会出现此错误,至少对于分区长度 (npartition) >1 和特定数据大小而言。
请参阅完整的测试代码_test_dask_error.py和带有回溯的完整输出_test_out.txt。
实际上,在那一步我停止了调查,因为我不知道如何在 async.py 中将这个错误调试为根本原因。当然,我会将其报告为错误(如果没有提示用户/使用错误)。但是:如何进行调试以找到根本原因?
_[a1]:_https://github.com/blaze/dask/tree/077b1b82ad03f855a960d252df2aaaa72b5b1cc5
_[a2]:_https://github.com/Blosc/bcolz/tree/562fd3092d1fee17372c11cadca54d1dab10cf9a
python - 为什么 dask 中的点积比 numpy 慢
dask 中的点积似乎比 numpy 运行得慢得多:
有谁知道这可能是什么原因?我在这里有什么遗漏吗?
python - Python:为什么将 Dask 切片复制到 Numpy 数组会导致行数不匹配
将一段 dask 数组复制到 nparray 时出错,行数不匹配
结果:
我对 dask 不是很熟悉,我使用它是因为我的数据没有保存在 RAM 中,行差异与缓存或块大小有关吗?
python - Dask 数组 rfft 似乎不起作用
我正在尝试在一些大型阵列中做一些真正的 fft 并决定尝试 dask。我遇到了一个问题,无论我做什么,函数 dask.array.rfft 似乎都不起作用。这是一个最小的例子。
程序的输出是。
无论我尝试对 dx_rfft 执行什么操作,它都会返回相同的错误。我试过 Pythons 2 和 3 并且都有同样的问题。我错过了什么还是图书馆的错误?
python - 正确选择 dask 数组的块规范
根据dask 文档,可以通过以下三种方式之一指定块:
- 像 1000 这样的块大小
- 像 (1000, 1000) 这样的块状
- 沿所有维度的所有块的显式大小,例如 ((1000, 1000, 500), (400, 400))
您的块输入将被规范化并以第三种也是最明确的形式存储..
在尝试使用可视化()函数了解块的工作方式之后,我仍然不确定一些事情:
如果输入是标准化的,我选择哪种输入形式有关系吗?
Blocksize表示每个块的大小为 X,即1000。blockshape输入指定了什么?
给出块形输入时,参数的顺序会有所不同吗?它与数组/矩阵的形状有什么关系?