问题标签 [dask-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
683 浏览

dask - 如何从 CuPy 数组创建一个 dask 数组?

我正在尝试dask.cluster.Kmeans使用大量数据启动。使用 CPU 是可以的,因为我numpydask.array. 由于未在cupy.

我试图重现关于从 CuPy 随机生成器生成随机 dask 数组的Mattew Rocklin 示例( https://blog.dask.org/2019/01/03/dask-array-gpus-first-steps ) - 它有效,但这不是我想使用的情况。

cupy用-包裹dask.array不起作用。

我期望这个数组的总和,但得到以下错误:

那么我如何通过 dask 数组管理 CuPy 的工作呢?

0 投票
1 回答
519 浏览

python - 使用 dask ml StandardScaler 的属性错误

我正在尝试重现 dask-ml 文档中的示例:https://dask-ml.readthedocs.io/en/latest/modules/api.html出于某种原因是用 sklearn 制作的:

这是我用于 dask 的代码:

这会引发以下错误:

AttributeError: 'list' 对象没有属性 'mean'

然后我尝试了这个中等帖子中的一个例子: https ://towardsdatascience.com/speeding-up-your-algorithms-part-4-dask-7c6ed79994ef

这引发了这个错误:

AttributeError:“标量”对象没有属性“副本”

0 投票
1 回答
870 浏览

pandas - 如何将 LabelEncoder 应用于 Dask DataFrame 以编码分类值

我有一个 Dask 数据框,它由分类数据和数字(浮点数和整数)数据组成。当我尝试使用下面的代码对分类列进行 LabelEncode 时,出现错误。

错误如下:

此外,我尝试了一种不同的方法:

这给了我一个新的错误:

任何人都可以告诉我将编码应用于 Dask DataFrame 中的分类数据的正确方法。提前致谢。

0 投票
1 回答
637 浏览

logistic-regression - scikit-learn 和 dask-ml LogisticRegression 的不同结果

当使用相同的数据运行相同的 LogisticRegression 时,scikit-learn 和 dask-ml 实现之间的结果应该没有差异。

版本:scikit-learn=0.21.2
dask-ml=1.0.0

首先使用 dask-ml LogisticRegression:

现在使用 sklearn LogisticRegression :

scikit-learn 的分数和卷积矩阵

dask-ml 的分数和卷积矩阵

0 投票
0 回答
48 浏览

dask - Dask One 热编码器 handle_unknown="ignore",可以解决吗?

我知道它现在没有处理,但它阻止了我能够针对训练有素的 OneHotEncoder / Pipeline 以实时方式(如在实时 API 服务中)对特征进行编码。

如果碰巧需要对以前从未见过的东西进行编码,人们如何解决需要实时编码数据的问题?

谢谢

0 投票
1 回答
1372 浏览

python-3.x - ImportError:无法导入名称“DeprecationDict”

我正在尝试导入 dask_searchcv 并在导入其他模块时引发错误DeprecationDict

我已经安装了 dask_searchcv 版本:0.2.0 和 scikit-learn 版本:0.21.3

我尝试导入 dark_searchcv,如下所示:

我收到以下错误消息:

我尝试使用重新安装 sklearn,pip3 install -U scikit-learn但问题仍未解决。

注意:我正在使用 jupyter notebook 运行上面的代码

0 投票
2 回答
1005 浏览

python - 带有 hidden_​​layer_sizes 的 GridSearchCV 的奇怪行为

GridSearchCV(无论是 fromsklearn还是 from dask)似乎参数有些奇怪或错误,导致 MLPRegressor 忽略该参数。
我用一个最小的工作示例来展示这种行为。
假设数字初始化featuresvalues在我的情况下

并运行以下代码

结果是

因此在这两种情况下,hidden_layer_sizes参数都具有(100,)不在网格中的值。我做错了什么,或者这里发生了什么?

python-版本 3.6.9
sklearn-版本 0.21.2
dask_ml-版本 1.0.0

0 投票
1 回答
320 浏览

dask - HyperbandCV 和其他增量搜索算法是否适用于没有 partial_fit 和 fir 管道的模型?

我一直在深入研究 github 页面并阅读文档,但我并不完全了解 HyperbandCV 是否有助于加快超参数优化。

我正在使用 SKLearn 的管道功能。而且我还在测试不支持 partial_fit 的 LinearRegression() 等模型;它必须一次使用所有数据来拟合参数。这种情况下,HyperbandCV还能用吗?如果使用它,根据我的理解,如果 Pipeline 和所述模型都没有实现部分拟合,那么它到底优化了什么。在 Hyperband 的 api 中,它读取它需要实现 partial_fit 才能使用它。然而,在另一个文档中,它读到它可以替代 RandomizedSearchCV,因为它只花费更少的时间来训练低性能模型。

如果有人可以为我澄清这一点,那就太好了。

0 投票
1 回答
190 浏览

python - 如何查找 dask 数组分区的行索引

我有一个 2D (4950, 4950) dask 数组,我想并行计算。使用链接:https ://docs.dask.org/en/latest/delayed-best-practices.html#don-t-call-dask-delayed-on-other-dask-collections

我得到的结果是:

我想找出每个分区的行索引(第一个和最后一个索引),以将每个索引的计算结果保存在最终输出文件中。

我找不到很多与分区相关的文档,非常感谢任何可以帮助查找行索引的帮助/链接。

0 投票
1 回答
469 浏览

dataframe - 使用 Dask DataFrames 展平 JSON

我正在尝试在 Dask 数据帧中展平 JSON 数组对象(没有文件 .json),因为我有很多数据并且我的 RAM 被不断运行的进程消耗,所以我需要一个并行形式的解决方案。

这就是我拥有的 JSON:

这就是我拥有的数据框:

我需要将每个 id 转换为数据框,如下所示:

所有进程必须与 Dask 并行。有什么推荐吗?

提前致谢。