问题标签 [dask-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
40 浏览

dask - 如何在 dask 分布式集群中使用 dask_ml 预处理

如何在 dask 分布式集群中进行 dask_ml 预处理?我的数据集大约 200GB,每次我对准备 OneHotEncoding 的数据集进行分类时,看起来 dask 都忽略了客户端并尝试将数据集加载到本地机器的内存中。也许我错过了一些东西:

0 投票
0 回答
8 浏览

parallel-processing - dask_ml.model_selection.GridSearchCV 关于并行计算的问题

有没有人体验过在单个集群上的并行计算中使用“dask_ml.model_selection.GridSearchCV(sklearn_function(),param_list,cv=5,n_jobs=20,scheduler="multiprocessing")",但遇到所有分配的 20 个 CPU 工作人员永远沉睡?

0 投票
0 回答
31 浏览

dask - Qi:如何设置与 SLURM 20.02.3 兼容的 dask 和 dask_ml 配置

每当使用 dask_ml 和 dask 包时,我们都会遇到并行处理问题。我们观察到的现象是:dask 无法被 Slurm 作业管理器控制,无法正确分配 MPI 作业。所有worker的性能都很低(CPU不到10%),产生了很多线程(~100),仍然无法完成计算。请注意,这个 python 对象在 Comet 上运行非常高效,完全没有问题。

例如,在主 python (3.6.9) 脚本中:

我们安装的dask版本是:2.12.0;我们安装的 dask_ml 版本是:1.2.0。您能否给我们一些指导,告诉我们如何检查当前版本的 dask/dask_ml 与 Expanse 环境的兼容性?你有关于设置 dask/dask_ml 的经验吗?

非常感谢!我们正在等待您的回复。非常感谢!

0 投票
0 回答
40 浏览

dask - Dask-ml ParallelPostFit 未使用分布式并导致本地计算机上的内存错误

我想对大型数据集进行随机森林预测并将结果保存为数据框。我读了https://examples.dask.org/machine-learning/parallel-prediction.html,上面写着“工作人员可以将预测值写入共享文件系统,而无需在单台机器上收集数据”,但我不知道该怎么做。我通过连接到分布式集群并执行以下操作来尝试此操作:

然而,这不会触发集群上的任何计算(通过仪表板观察),并且在to_parquet计算时将我的 1TB RAM 机器运行到内存错误中,即使对于 numpy 大小为 7GB的测试x也是如此。t我提交给集群的任何其他内容都在那里计算。那么如何保存预测结果呢?

编辑:这似乎是 input 的大小问题x。它有形状(24507731,8)。如果我只是输入具有(24507,8)计算完成形状的随机数据。这是非常令人惊讶的,因为ParallelPostfit它应该首先使对大数据的预测成为可能。

0 投票
1 回答
41 浏览

dask - 如何连接到 oralce 数据库并使用 dask 将数据导入 csv 格式?


如何使用 dask 连接到 oracle 数据库并从中获取数据并使用获取的数据创建一个 csv 文件。

0 投票
1 回答
30 浏览

gridsearchcv - 尽管有这个错误,我如何在 dast_ml 中运行 GridSearchCV?

这是我在 Google Colab 中的代码:

我有这个错误

对于 train_test_split 我使用函数 from : from dask_ml.model_selection import train_test_split 我真的不知道,问题出在哪里。

有什么建议么?

0 投票
1 回答
69 浏览

python - dask_xgboost.predict 有效但无法显示 - 数据必须是一维的

我正在尝试使用 XGBoost 创建模型。
似乎我设法训练了模型,但是,当我尝试预测我的测试数据并查看实际预测时,我收到以下错误:

ValueError:数据必须是一维的

这就是我尝试预测数据的方式:

预测的最后一行有效,但是当我将计算添加到末尾以查看实际数组时,我得到了尺寸错误:

我怎样才能得到预测.predict

0 投票
1 回答
84 浏览

python - 计算 dask 延迟对象列表

我已经提供了所有类似的问题和解决方案,但没有得到想要的输出。

我有一个 dask 延迟对象的列表。

其中投影类和解码方法如下:

变量是:

现在我想计算这个var并想得到一个列表或数组或数据框。为此,我尝试了各种选择:

选项1

选项2

选项3

选项4

但在所有情况下,我要么再次获得延迟对象列表,要么超时。

选项 1 给出以下错误:

提前致谢。

0 投票
1 回答
29 浏览

python - 将 dask QuantileTransformer 应用于同一数据帧中的计算字段

我正在尝试将 dask-mlQuantileTransformer转换应用于percentage字段,并percentage_qt在同一数据框中创建一个新字段。但我得到了错误Array assignment only supports 1-D arrays。如何使这项工作?

0 投票
1 回答
17 浏览

dask - 如何在 RAM 有限的 Dask 上加载巨大的模型?

我想在 Dask 上加载一个模型(ANNOY 模型)。该模型的大小为 60GB,Dask RAM 仅为 2GB。有没有办法以分布式方式加载模型?