问题标签 [dask-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dask - 如何在 dask 分布式集群中使用 dask_ml 预处理
如何在 dask 分布式集群中进行 dask_ml 预处理?我的数据集大约 200GB,每次我对准备 OneHotEncoding 的数据集进行分类时,看起来 dask 都忽略了客户端并尝试将数据集加载到本地机器的内存中。也许我错过了一些东西:
parallel-processing - dask_ml.model_selection.GridSearchCV 关于并行计算的问题
有没有人体验过在单个集群上的并行计算中使用“dask_ml.model_selection.GridSearchCV(sklearn_function(),param_list,cv=5,n_jobs=20,scheduler="multiprocessing")",但遇到所有分配的 20 个 CPU 工作人员永远沉睡?
dask - Qi:如何设置与 SLURM 20.02.3 兼容的 dask 和 dask_ml 配置
每当使用 dask_ml 和 dask 包时,我们都会遇到并行处理问题。我们观察到的现象是:dask 无法被 Slurm 作业管理器控制,无法正确分配 MPI 作业。所有worker的性能都很低(CPU不到10%),产生了很多线程(~100),仍然无法完成计算。请注意,这个 python 对象在 Comet 上运行非常高效,完全没有问题。
例如,在主 python (3.6.9) 脚本中:
我们安装的dask版本是:2.12.0;我们安装的 dask_ml 版本是:1.2.0。您能否给我们一些指导,告诉我们如何检查当前版本的 dask/dask_ml 与 Expanse 环境的兼容性?你有关于设置 dask/dask_ml 的经验吗?
非常感谢!我们正在等待您的回复。非常感谢!
dask - Dask-ml ParallelPostFit 未使用分布式并导致本地计算机上的内存错误
我想对大型数据集进行随机森林预测并将结果保存为数据框。我读了https://examples.dask.org/machine-learning/parallel-prediction.html,上面写着“工作人员可以将预测值写入共享文件系统,而无需在单台机器上收集数据”,但我不知道该怎么做。我通过连接到分布式集群并执行以下操作来尝试此操作:
然而,这不会触发集群上的任何计算(通过仪表板观察),并且在to_parquet
计算时将我的 1TB RAM 机器运行到内存错误中,即使对于 numpy 大小为 7GB的测试x
也是如此。t
我提交给集群的任何其他内容都在那里计算。那么如何保存预测结果呢?
编辑:这似乎是 input 的大小问题x
。它有形状(24507731,8)
。如果我只是输入具有(24507,8)
计算完成形状的随机数据。这是非常令人惊讶的,因为ParallelPostfit
它应该首先使对大数据的预测成为可能。
dask - 如何连接到 oralce 数据库并使用 dask 将数据导入 csv 格式?
如何使用 dask 连接到 oracle 数据库并从中获取数据并使用获取的数据创建一个 csv 文件。
gridsearchcv - 尽管有这个错误,我如何在 dast_ml 中运行 GridSearchCV?
这是我在 Google Colab 中的代码:
我有这个错误
对于 train_test_split 我使用函数 from : from dask_ml.model_selection import train_test_split 我真的不知道,问题出在哪里。
有什么建议么?
python - dask_xgboost.predict 有效但无法显示 - 数据必须是一维的
我正在尝试使用 XGBoost 创建模型。
似乎我设法训练了模型,但是,当我尝试预测我的测试数据并查看实际预测时,我收到以下错误:
ValueError:数据必须是一维的
这就是我尝试预测数据的方式:
预测的最后一行有效,但是当我将计算添加到末尾以查看实际数组时,我得到了尺寸错误:
我怎样才能得到预测.predict
?
python - 计算 dask 延迟对象列表
我已经提供了所有类似的问题和解决方案,但没有得到想要的输出。
我有一个 dask 延迟对象的列表。
其中投影类和解码方法如下:
变量是:
现在我想计算这个var并想得到一个列表或数组或数据框。为此,我尝试了各种选择:
选项1
选项2
选项3
选项4
但在所有情况下,我要么再次获得延迟对象列表,要么超时。
选项 1 给出以下错误:
提前致谢。
python - 将 dask QuantileTransformer 应用于同一数据帧中的计算字段
我正在尝试将 dask-mlQuantileTransformer
转换应用于percentage
字段,并percentage_qt
在同一数据框中创建一个新字段。但我得到了错误Array assignment only supports 1-D arrays
。如何使这项工作?
dask - 如何在 RAM 有限的 Dask 上加载巨大的模型?
我想在 Dask 上加载一个模型(ANNOY 模型)。该模型的大小为 60GB,Dask RAM 仅为 2GB。有没有办法以分布式方式加载模型?