问题标签 [dask-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
687 浏览

python - Dask - 导入 dask_ml.cluster - ModuleNotFoundError:没有名为“sklearn.cluster._k_means”的模块

我想使用 Dask 创建一个简单的聚类模型。在 Jupyter Notebooks 中单独(在单独的单元格中)尝试了以下导入语句:

它们中的每一个都分别导致以下错误:

这似乎真的很奇怪。有没有人经历过这个?

0 投票
2 回答
1278 浏览

python - Dask 分布式客户端 - 错误 - 10.00 秒后无法重新连接到调度程序,关闭客户端

我正在做一个非常简单的数据转换,Dask_ML我收到了这个错误,我想知道是否有人遇到过这个问题。看起来像可以修改的系统设置?

有任何想法吗?

0 投票
1 回答
68 浏览

dask - 您可以在 dask 阵列上使用 dask_ml kmeans 吗?

我有以下代码:

现在,如果我首先计算 feature_array 这段代码运行得很好,但是没有它它会给出一些我无法弄清楚的内部 TypeError:

我不应该在 dask_ml 中使用 dask 数组吗?我想使用 dask_ml 的主要原因是我希望这段代码能够在大于内存的数据集上运行。

干杯,弗洛里安

0 投票
1 回答
30 浏览

dask-ml - Dask ML 不会连接到远程集群

我已经通过客户端连接到我的远程集群,现在我正在尝试使用 Dask-ml

错误 1) 没有 dask_ml.joblib--我得到一个模块不存在错误

错误 2)如果我删除此导入,我会收到流连接关闭错误

没有看到任何好的文档。关于如何让 Dask-ml 与远程集群一起工作的任何想法?

0 投票
1 回答
346 浏览

python - 黄昏 ml 逻辑回归抛出此错误:“NotImplementedError: Can not add intercept to array with unknown chunk shape”

您好,我是黄昏 Ml 的新手,我一直在尝试使用 dask ml 来训练逻辑回归模型来预测推文情绪。我已将 pandas 数据框转换为 dask 数据框。之后我进行了训练测试拆分。之后我在 X_train 和 X_test 上使用了散列矢量化器。我执行了这条线Train_X_vect.compute().shape来检查形状,它返回(180224, 7000)了其他y_train.compute().shape返回的地方(180224,) 每当我尝试时,为了将它们拟合到逻辑回归模型中,我收到一条错误消息,提示“无法将截距添加到具有未知块的数组”这是我的代码:

我也使用了“fit_intercept = False”,但随后我会收到此错误:“IndexError: Index dimension must be <= 2”

请你能告诉我我做错了什么,我应该如何解决它?谢谢你,先生

0 投票
1 回答
659 浏览

keras - 如何使用分布式 Dask 和预训练的 Keras 模型进行模型预测?

我正在加载我预先训练的 keras 模型,然后尝试使用 dask 并行化大量输入数据?不幸的是,我遇到了一些与我如何创建我的 dask 数组有关的问题。任何指导将不胜感激!

设置:

首先我从这个 repo 克隆https://github.com/sanchit2843/dlworkshop.git

可重现的代码示例:

我收到的错误:

0 投票
1 回答
777 浏览

python - Error while importing DASK: module 'dask.array' has no attribute 'blockwise'

I am trying to use DASK for fast computing as logistic regression aborted after 17 hours on my system. My data set is about 1 million rows.

I first ran these commands:

The above commands ran but through a warning:

C:\ProgramData\Anaconda3\lib\site-packages\distributed\bokeh\core.py:57: UserWarning: Port 8787 is already in use. Perhaps you already have a cluster running? Hosting the diagnostics dashboard on a random port instead. warnings.warn('\n' + msg)

Then I ran these commands:

Error: AttributeError: module 'dask.array' has no attribute 'blockwise'

Can anyone help me with how to resolve this?

0 投票
0 回答
248 浏览

dask - 多维 dask 数组上的 dask-ml LinearRegression

我正在尝试对大于内存的数组数据执行多元线性回归。我想知道如何dask_ml在多维 dask 数组上迭代线性回归函数。

在足够小的数据上,我可以使用sklearn.linear_model.LinearRegressionor sklearn.linear_model.Ridge(with alpha=0.0),因为这些函数可以采用多维y, with shape (n_samples, n_targets)。该问题可以看作是执行线性回归n_targets时间。

具体来说,我正在考虑使用dask_ml.linear_model.LinearRegression(但我对替代方案的建议持开放态度)。然而,这个函数只需要一维y。我可以考虑使用 for 循环,但这似乎是一种非常缓慢且低效的方法。有什么更好的方法来做到这一点?

作为一个额外的问题:我观察到的输出.coefdask_ml.linear_model.LinearRegression一个 numpy 数组,这意味着它被急切地执行。它没有作为可计算的 dask 数组返回是否有原因?

0 投票
1 回答
117 浏览

python - 使用 Dask 和机器学习模型的嵌套流程

我有一个包含 100000 个样本的数据集。

我需要将此数据集拆分为 100 个子集,并为每个子集训练一个 ML 模型。由于经过训练的模型是独立的,因此很容易将这部分并行化,例如

但是假设模型本身需要产生进程,例如,如果模型是一个包含交叉验证的管道,例如GridSearchCVor HyperBandSearchCV

那么它是如何工作的呢?我应该如何并行化这段代码?我不清楚如何使它工作,特别是如果我使用类似的sklearn估计器GridSearchCVColumnTransformer使用哪个joblib而不是dask并行化计算。

事实上,取决于我是否使用 aClient或不这样:

并且根据这个实例化client是在主脚本中创建还是从不同的模块导入,我会收到警告或错误。

在第一种情况下,代码已成功执行,但我收到一条警告:

Multiprocessing-backed parallel loops cannot be nested, setting n_jobs=1

在第二种情况下,代码永远不会完成,解释器堆栈和我得到这个错误:

daemonic processes are not allowed to have children

任何帮助如何解决这个问题将不胜感激。谢谢

0 投票
2 回答
772 浏览

python - Dask Distributed.scheduler - 错误 - 无法收集密钥

我使用两台本地机器创建了一个 dask 集群

我正在尝试使用 dask gridsearchcv 找到最佳参数。我面临以下错误。

我希望有人帮助解决这个问题。提前致谢。