问题标签 [dask-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Dask - 导入 dask_ml.cluster - ModuleNotFoundError:没有名为“sklearn.cluster._k_means”的模块
我想使用 Dask 创建一个简单的聚类模型。我在 Jupyter Notebooks 中单独(在单独的单元格中)尝试了以下导入语句:
它们中的每一个都分别导致以下错误:
这似乎真的很奇怪。有没有人经历过这个?
python - Dask 分布式客户端 - 错误 - 10.00 秒后无法重新连接到调度程序,关闭客户端
我正在做一个非常简单的数据转换,Dask_ML
我收到了这个错误,我想知道是否有人遇到过这个问题。看起来像可以修改的系统设置?
有任何想法吗?
dask - 您可以在 dask 阵列上使用 dask_ml kmeans 吗?
我有以下代码:
现在,如果我首先计算 feature_array 这段代码运行得很好,但是没有它它会给出一些我无法弄清楚的内部 TypeError:
我不应该在 dask_ml 中使用 dask 数组吗?我想使用 dask_ml 的主要原因是我希望这段代码能够在大于内存的数据集上运行。
干杯,弗洛里安
dask-ml - Dask ML 不会连接到远程集群
我已经通过客户端连接到我的远程集群,现在我正在尝试使用 Dask-ml
错误 1) 没有 dask_ml.joblib--我得到一个模块不存在错误
错误 2)如果我删除此导入,我会收到流连接关闭错误
没有看到任何好的文档。关于如何让 Dask-ml 与远程集群一起工作的任何想法?
python - 黄昏 ml 逻辑回归抛出此错误:“NotImplementedError: Can not add intercept to array with unknown chunk shape”
您好,我是黄昏 Ml 的新手,我一直在尝试使用 dask ml 来训练逻辑回归模型来预测推文情绪。我已将 pandas 数据框转换为 dask 数据框。之后我进行了训练测试拆分。之后我在 X_train 和 X_test 上使用了散列矢量化器。我执行了这条线Train_X_vect.compute().shape
来检查形状,它返回(180224, 7000)
了其他y_train.compute().shape
返回的地方(180224,)
每当我尝试时,为了将它们拟合到逻辑回归模型中,我收到一条错误消息,提示“无法将截距添加到具有未知块的数组”这是我的代码:
我也使用了“fit_intercept = False”,但随后我会收到此错误:“IndexError: Index dimension must be <= 2”
请你能告诉我我做错了什么,我应该如何解决它?谢谢你,先生
keras - 如何使用分布式 Dask 和预训练的 Keras 模型进行模型预测?
我正在加载我预先训练的 keras 模型,然后尝试使用 dask 并行化大量输入数据?不幸的是,我遇到了一些与我如何创建我的 dask 数组有关的问题。任何指导将不胜感激!
设置:
首先我从这个 repo 克隆https://github.com/sanchit2843/dlworkshop.git
可重现的代码示例:
我收到的错误:
python - Error while importing DASK: module 'dask.array' has no attribute 'blockwise'
I am trying to use DASK for fast computing as logistic regression aborted after 17 hours on my system. My data set is about 1 million rows.
I first ran these commands:
The above commands ran but through a warning:
C:\ProgramData\Anaconda3\lib\site-packages\distributed\bokeh\core.py:57: UserWarning: Port 8787 is already in use. Perhaps you already have a cluster running? Hosting the diagnostics dashboard on a random port instead. warnings.warn('\n' + msg)
Then I ran these commands:
Error: AttributeError: module 'dask.array' has no attribute 'blockwise'
Can anyone help me with how to resolve this?
dask - 多维 dask 数组上的 dask-ml LinearRegression
我正在尝试对大于内存的数组数据执行多元线性回归。我想知道如何dask_ml
在多维 dask 数组上迭代线性回归函数。
在足够小的数据上,我可以使用sklearn.linear_model.LinearRegression
or sklearn.linear_model.Ridge
(with alpha=0.0
),因为这些函数可以采用多维y
, with shape (n_samples, n_targets)
。该问题可以看作是执行线性回归n_targets
时间。
具体来说,我正在考虑使用dask_ml.linear_model.LinearRegression
(但我对替代方案的建议持开放态度)。然而,这个函数只需要一维y
。我可以考虑使用 for 循环,但这似乎是一种非常缓慢且低效的方法。有什么更好的方法来做到这一点?
作为一个额外的问题:我观察到的输出.coef
是dask_ml.linear_model.LinearRegression
一个 numpy 数组,这意味着它被急切地执行。它没有作为可计算的 dask 数组返回是否有原因?
python - 使用 Dask 和机器学习模型的嵌套流程
我有一个包含 100000 个样本的数据集。
我需要将此数据集拆分为 100 个子集,并为每个子集训练一个 ML 模型。由于经过训练的模型是独立的,因此很容易将这部分并行化,例如
但是假设模型本身需要产生进程,例如,如果模型是一个包含交叉验证的管道,例如GridSearchCV
or HyperBandSearchCV
。
那么它是如何工作的呢?我应该如何并行化这段代码?我不清楚如何使它工作,特别是如果我使用类似的sklearn
估计器GridSearchCV
或ColumnTransformer
使用哪个joblib
而不是dask
并行化计算。
事实上,取决于我是否使用 aClient
或不这样:
并且根据这个实例化client
是在主脚本中创建还是从不同的模块导入,我会收到警告或错误。
在第一种情况下,代码已成功执行,但我收到一条警告:
Multiprocessing-backed parallel loops cannot be nested, setting n_jobs=1
在第二种情况下,代码永远不会完成,解释器堆栈和我得到这个错误:
daemonic processes are not allowed to have children
任何帮助如何解决这个问题将不胜感激。谢谢
python - Dask Distributed.scheduler - 错误 - 无法收集密钥
我使用两台本地机器创建了一个 dask 集群
我正在尝试使用 dask gridsearchcv 找到最佳参数。我面临以下错误。
我希望有人帮助解决这个问题。提前致谢。