问题标签 [dask]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 以 bcolz 格式保存 dask 数据帧
dask 文档指出:“BColz 是一个磁盘上的、分块的、压缩的、列存储。这些属性使其对 dask.dataframe 非常有吸引力,它可以在其上运行得特别好。有一个特殊的 from_bcolz 函数。”
但是,我找不到如何将 dask 数据帧保存到 bcolz 的示例。推荐的方法是什么?
python - 如何通过索引列表从 dask 数据框中选择数据?
我想根据索引列表从 dask 数据框中选择行。我怎样才能做到这一点?
示例: 假设我有以下 dask 数据框。
此外,我有一个我感兴趣的索引列表,例如
由此,我想生成一个仅包含在indices_i_want_to_select
python - Dask 是否支持自定义图表中具有多个输出的函数?
Dask的Custom Graphs API似乎只支持返回一个输出键/值的函数。
例如,以下依赖关系不能轻易地表示为 Dask 图:
这可以通过在“复合”键下存储一个元组(例如,在这种情况下为“B_C”)然后将其拆分getitem()
或类似来解决。但是,这会导致执行效率低下(例如不必要的序列化)并降低 DAG 可视化的清晰度。
有更好的方法还是目前不支持?
python - dask 数据帧中 .join 的结果似乎取决于生成 dask 数据帧的方式
join
应用于.from_delayed 方法生成的 dask 数据帧时,我得到了意想不到的结果。我想通过下面的例子来证明这一点,它由三个部分组成。
- 通过该方法生成 dask 数据帧,
from_delayed
并将其与通过 生成的 dask 数据帧连接起来from_pandas
- 使用该方法将两个数据帧转换为熊猫数据帧
compute
。加入他们,如(1) from_delayed
将通过方法生成的 dask 数据帧转换为使用compute
. Aferwards 使用from_pandas
. 然后加入(1)。
考虑以下代码:
我希望所有三个结果(dask_from_delayed_join
, pandas_join
, dask_from_pandas_join
)都是相同的。
但是,第一个结果与其他结果不同:
print(dask_from_delayed_join.compute())
:
print(pandas_join)
:
print(dask_from_pandas_join.compute())
:
到底是怎么回事?
python - 在 EC2 上运行大数据计算时出现 dask.async.MemoryError
我有一个 m4.4xlarge(64 GB 内存)EC2 盒子。我正在和熊猫一起跑步。我收到以下内存错误。
我在运行大约 24 小时后得到了这个,这大约是任务完成所需的时间,所以我不确定错误是否是由于 RAM 不足,磁盘内存不足作为我执行 DF 的脚本的结尾.to_csv() 将大 DF 写入磁盘或 pandas/numpy 内部内存限制?
更新:
因此,根据 MRocklin 的回答,提供了一些额外的信息。
这是我执行该过程的方式:
现在问题dfpath
是一个 df 有 140 万行,因此dfpath_ddf.apply()
运行超过 140 万行。
一旦整个dfpath_ddf.apply()
完成,df.to_csv()
就会发生,但就像你说的那样,最好定期写入磁盘。
现在的问题是,我如何实现每隔 200k 行定期写入磁盘之类的东西?我想我可以分解dfpath_ddf
成 200k 块(或类似的东西)并依次运行每个块?
python - 使用带有 dask.distributed 的 Spot 实例
dask.distributed 是否支持使用 ec2 现货实例dask-ec2
?我没有看到在http://distributed.readthedocs.io/en/latest/ec2.html上指定的选项
python - dask 如何从调度程序向工作人员分发数据?
是否有任何关于 dask 如何拆分并将数据发送给工作人员的文档?我在官方网站上没找到。
python - dask分布式内存错误
在分布式作业上运行 Dask 时,调度程序出现以下错误:
这是调度程序或其中一名工作人员的内存不足吗?或两者??
python - 在 dask 数据框中创建 if-else 条件列
我需要创建一个基于 dask 数据框的某些条件的列。在 pandas 中,它相当简单:
在 dask 中,我必须做同样的事情,如下所示:
问题:
- 有没有更好/更直接的方法来实现它?
- 我无法修改第一个数据帧 ddf,我需要创建 ddf1 以确保更改是 dask 数据帧不可变对象?
python - 将dask系列连接到数据框时出错
我有一个多 dask 核心系列,我想将其合并到一个数据帧中,以进一步写入 csv 文件,我该怎么做。我在尝试执行相同操作时遇到以下错误,请建议...