问题标签 [dask]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
353 浏览

python - 以 bcolz 格式保存 dask 数据帧

dask 文档指出:“BColz 是一个磁盘上的、分块的、压缩的、列存储。这些属性使其对 dask.dataframe 非常有吸引力,它可以在其上运行得特别好。有一个特殊的 from_bcolz 函数。”

但是,我找不到如何将 dask 数据帧保存到 bcolz 的示例。推荐的方法是什么?

0 投票
2 回答
10832 浏览

python - 如何通过索引列表从 dask 数据框中选择数据?

我想根据索引列表从 dask 数据框中选择行。我怎样才能做到这一点?

示例: 假设我有以下 dask 数据框。

此外,我有一个我感兴趣的索引列表,例如

由此,我想生成一个仅包含在indices_i_want_to_select

0 投票
1 回答
1025 浏览

python - Dask 是否支持自定义图表中具有多个输出的函数?

DaskCustom Graphs API似乎只支持返回一个输出键/值的函数。

例如,以下依赖关系不能轻易地表示为 Dask 图:

这可以通过在“复合”键下存储一个元组(例如,在这种情况下为“B_C”)然后将其拆分getitem()或类似来解决。但是,这会导致执行效率低下(例如不必要的序列化)并降低 DAG 可视化的清晰度。

有更好的方法还是目前不支持?

0 投票
1 回答
854 浏览

python - dask 数据帧中 .join 的结果似乎取决于生成 dask 数据帧的方式

join应用于.from_delayed 方法生成的 dask 数据帧时,我得到了意想不到的结果。我想通过下面的例子来证明这一点,它由三个部分组成。

  1. 通过该方法生成 dask 数据帧,from_delayed并将其与通过 生成的 dask 数据帧连接起来from_pandas
  2. 使用该方法将两个数据帧转换为熊猫数据帧compute。加入他们,如(1)
  3. from_delayed将通过方法生成的 dask 数据帧转换为使用compute. Aferwards 使用from_pandas. 然后加入(1)。

考虑以下代码:

我希望所有三个结果(dask_from_delayed_join, pandas_join, dask_from_pandas_join)都是相同的。

但是,第一个结果与其他结果不同:

print(dask_from_delayed_join.compute())

print(pandas_join)

print(dask_from_pandas_join.compute())

到底是怎么回事?

0 投票
1 回答
427 浏览

python - 在 EC2 上运行大数据计算时出现 dask.async.MemoryError

我有一个 m4.4xlarge(64 GB 内存)EC2 盒子。我正在和熊猫一起跑步。我收到以下内存错误。

我在运行大约 24 小时后得到了这个,这大约是任务完成所需的时间,所以我不确定错误是否是由于 RAM 不足,磁盘内存不足作为我执行 DF 的脚本的结尾.to_csv() 将大 DF 写入磁盘或 pandas/numpy 内部内存限制?

更新:

因此,根据 MRocklin 的回答,提供了一些额外的信息。

这是我执行该过程的方式:

现在问题dfpath是一个 df 有 140 万行,因此dfpath_ddf.apply()运行超过 140 万行。

一旦整个dfpath_ddf.apply()完成,df.to_csv()就会发生,但就像你说的那样,最好定期写入磁盘。

现在的问题是,我如何实现每隔 200k 行定期写入磁盘之类的东西?我想我可以分解dfpath_ddf成 200k 块(或类似的东西)并依次运行每个块?

0 投票
1 回答
259 浏览

python - 使用带有 dask.distributed 的 Spot 实例

dask.distributed 是否支持使用 ec2 现货实例dask-ec2?我没有看到在http://distributed.readthedocs.io/en/latest/ec2.html上指定的选项

0 投票
1 回答
173 浏览

python - dask 如何从调度程序向工作人员分发数据?

是否有任何关于 dask 如何拆分并将数据发送给工作人员的文档?我在官方网站上没找到。

0 投票
1 回答
2049 浏览

python - dask分布式内存错误

在分布式作业上运行 Dask 时,调度程序出现以下错误:

这是调度程序或其中一名工作人员的内存不足吗?或两者??

0 投票
3 回答
2631 浏览

python - 在 dask 数据框中创建 if-else 条件列

我需要创建一个基于 dask 数据框的某些条件的列。在 pandas 中,它相当简单:

在 dask 中,我必须做同样的事情,如下所示:

问题:

  1. 有没有更好/更直接的方法来实现它?
  2. 我无法修改第一个数据帧 ddf,我需要创建 ddf1 以确保更改是 dask 数据帧不可变对象?
0 投票
1 回答
653 浏览

python - 将dask系列连接到数据框时出错

我有一个多 dask 核心系列,我想将其合并到一个数据帧中,以进一步写入 csv 文件,我该怎么做。我在尝试执行相同操作时遇到以下错误,请建议...

数据

代码

错误