问题标签 [dask-dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
464 浏览

python - 将文本文件读入 Dask DataFrame

我正在寻找在约 100,000 个文本文件上训练模型。Pandas 遇到了一些内存问题,因此决定迁移到 Dask。

我正在尝试将文件读入已存储文件路径的 dask DataFrame。在熊猫中,我可以简单地执行以下操作:

但这给出了一个NotImplementedError错误。

有没有办法有效地将文本文件读入 Dask?

0 投票
1 回答
239 浏览

pandas - Dask数据框:获取每个排序组的第一行

我有一个包含以下格式的 dask 数据框:

输出:

我需要在按日期排序并按 ID 分组的每个组中选择第一条记录。如果可能的话,如何在 dask 和 pandas 中实现这一点。

输出:

我尝试了什么:

使用:使用 groupby 获取组中具有最大计数的行

请测试并发布答案,因为许多答案没有按预期工作。

0 投票
1 回答
168 浏览

pandas - 如何在 dask 数据框中使用级别值进行索引?

从数据集初始值的过滤步骤中,我有一个更大数据集的索引子集,形式为

这些指数的形式是

有了这个,我喜欢使用索引来减少使用 Dask 的大型数据集,给定数据集为

我试过了

如何在更大的数据集上实际使用索引子集?

0 投票
1 回答
242 浏览

python - 从 Dask 数据框列创建列表的方法

我想从 Dask Dataframe 列创建一个列表/集。基本上,我想使用此列表通过将值与此数据框中的列匹配来过滤另一个数据框中的行。我尝试过使用list(df[column]) set(df[column])但它需要很多时间并且最终会在创建集群时出现错误,或者有时它会在达到内存限制时重新启动内核。

我可以使用dask.bag或 Multiprocessing 创建列表吗?

0 投票
1 回答
107 浏览

python - 查找 Dask 数据帧的长度

我正在尝试查找 dask 数据帧的长度,len(dataframe[column])但每次尝试执行此操作时都会出现错误:

我的 dask 数据框有 1000 万行。有什么办法可以解决这个错误。

0 投票
1 回答
425 浏览

python - 如何向 dask 数据框中的特定分区添加/追加一行?

我想将一行附加到 dask 数据帧中的特定分区。我尝试了很多方法,但没有一个是可行的。谁可以帮我这个事。提前致谢

我试过了 -

这不起作用

我什至尝试使用 map_partitions(),但即使是这个函数也不能真正帮助获取分区的元数据来修改特定的分区。

是否可以将数据框保存为镶木地板并仅修改特定的镶木地板文件并将其保存回来?- 我试过这个,即使这似乎不起作用。

0 投票
0 回答
39 浏览

pandas - Dask 数据帧 OutOfBoundsDatetime 错误

尝试对数据框中的datetime[ns]列执行操作时出现以下错误:Dask

OutOfBoundsDatetime:越界纳秒时间戳:3019-01-31 00:00:00

我正在尝试执行的操作是:

当我尝试获取数据框时min,它可以工作,所以为什么它不能在数据框上工作。maxpandasdask

中的最小和最大日期CALL_TS是:2018-03-26; 2020-12-30

非常感谢你的帮助。

0 投票
2 回答
480 浏览

python - 如何比较 dask 数据框的列?

我有大量数据已读入 dask 数据帧。这个数据框有两列我认为是多余的(即具有相同的值)。这些列是字符串值——它们给出了用于培养细胞菌落的生长培养基的名称。

我想在删除其中一列之前检查我的假设,即这两列是相同的。

我能想到的最简单的解决方案如下:

但这给了我以下错误:

我认为这可能是因为列中有一些NaN',所以我.dropna()在比较之前尝试了做。但这并没有解决问题。

经过大量的挥舞,我最终得到了这个神秘的混乱:

但即使这样也没有解决我的问题。

据我所知,该错误消息确实没有帮助,因为既不涉及pd.read_csv也不涉及。pd.read_table但是,pandas.read_text在回溯中,所以也许 dask 正在为不同的数据分片写入文件。

(我使用的是 dask 版本 1.2.2,如果有帮助的话。我在高性能集群上使用它,它落后于软件的前沿。)

0 投票
0 回答
87 浏览

dask - 有没有直接的方法将 Dask 数据帧转换为 Xarray 数据集?

Xarray 和 Dask 文档解释了如何使用 Dask 支持将大型 NetCDF 数据集加载到 Xarray 中。但是如果我有一个非常大的CSV 文件(> 1GB)怎么办?是否可以通过 Dask 将其加载Xarray 数据集中?是以参与 Dask 后端的方式将其加载到 Xarray 中,还是将其加载为 Dask 数据帧并将该数据帧转换为 Xarray 数据集?

我想将此数据集与 Xarray 一起使用,因为它由实验结果组成,并且我想根据自变量的不同设置(我将用作维度)对实验结果进行索引。

Xarray 的from_dataframe()http://xarray.pydata.org/en/stable/generated/xarray.Dataset.from_dataframe.html?highlight=from_dataframe)只提到支持 Pandas DataFrames,没有提到 dask。

Dask 文档 ( https://examples.dask.org/xarray.html ) 仅描述了从保存的 Xarray 数据集加载。

0 投票
1 回答
436 浏览

dask - 显示 dask.compute(*something) 调用的进度

我使用 Dask 在我的代码中具有以下结构:

事实证明,当我在列表中调用该dask.compute()方法时output,我没有任何进度指示。诊断 UI 不会“捕获”此操作,我什至不确定它是否正常运行(根据我的处理器使用情况判断,我认为不是)。

我正在关注 dask 文档中的“最佳实践”文章:

https://docs.dask.org/en/latest/delayed-best-practices.html

我错过了什么?

编辑:我认为它正在运行,因为我仍然收到内存泄漏/高使用率警告。仍然没有进展迹象。