问题标签 [dask-ml]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

71 问题

0 投票

1 回答

683 浏览

dask - 如何从 CuPy 数组创建一个 dask 数组？

我正在尝试dask.cluster.Kmeans使用大量数据启动。使用 CPU 是可以的，因为我numpy用dask.array. 由于未在cupy.

我试图重现关于从 CuPy 随机生成器生成随机 dask 数组的Mattew Rocklin 示例（ https://blog.dask.org/2019/01/03/dask-array-gpus-first-steps ） - 它有效，但这不是我想使用的情况。

cupy用-包裹dask.array不起作用。

我期望这个数组的总和，但得到以下错误：

那么我如何通过 dask 数组管理 CuPy 的工作呢？

2019-06-26T15:31:40.773

0 投票

1 回答

519 浏览

python - 使用 dask ml StandardScaler 的属性错误

我正在尝试重现 dask-ml 文档中的示例：https://dask-ml.readthedocs.io/en/latest/modules/api.html出于某种原因是用 sklearn 制作的：

这是我用于 dask 的代码：

这会引发以下错误：

AttributeError: 'list' 对象没有属性 'mean'

然后我尝试了这个中等帖子中的一个例子： https ://towardsdatascience.com/speeding-up-your-algorithms-part-4-dask-7c6ed79994ef

这引发了这个错误：

AttributeError：“标量”对象没有属性“副本”

python dask dask-distributed dask-ml

2019-07-14T16:17:00.063

0 投票

1 回答

870 浏览

pandas - 如何将 LabelEncoder 应用于 Dask DataFrame 以编码分类值

我有一个 Dask 数据框，它由分类数据和数字（浮点数和整数）数据组成。当我尝试使用下面的代码对分类列进行 LabelEncode 时，出现错误。

错误如下：

此外，我尝试了一种不同的方法：

这给了我一个新的错误：

任何人都可以告诉我将编码应用于 Dask DataFrame 中的分类数据的正确方法。提前致谢。

pandas data-science dask dask-distributed dask-ml

2019-07-24T15:17:13.883

0 投票

1 回答

637 浏览

logistic-regression - scikit-learn 和 dask-ml LogisticRegression 的不同结果

当使用相同的数据运行相同的 LogisticRegression 时，scikit-learn 和 dask-ml 实现之间的结果应该没有差异。

版本：scikit-learn=0.21.2
dask-ml=1.0.0

首先使用 dask-ml LogisticRegression：

现在使用 sklearn LogisticRegression ：

scikit-learn 的分数和卷积矩阵

dask-ml 的分数和卷积矩阵

logistic-regression dask dask-ml

2019-07-31T16:25:38.323

0 投票

0 回答

48 浏览

dask - Dask One 热编码器 handle_unknown="ignore"，可以解决吗？

我知道它现在没有处理，但它阻止了我能够针对训练有素的 OneHotEncoder / Pipeline 以实时方式（如在实时 API 服务中）对特征进行编码。

如果碰巧需要对以前从未见过的东西进行编码，人们如何解决需要实时编码数据的问题？

谢谢

dask dask-ml

2019-08-22T00:16:01.970

0 投票

1 回答

1372 浏览

python-3.x - ImportError：无法导入名称“DeprecationDict”

我正在尝试导入 dask_searchcv 并在导入其他模块时引发错误DeprecationDict。

我已经安装了 dask_searchcv 版本：0.2.0 和 scikit-learn 版本：0.21.3

我尝试导入 dark_searchcv，如下所示：

我收到以下错误消息：

我尝试使用重新安装 sklearn，pip3 install -U scikit-learn但问题仍未解决。

注意：我正在使用 jupyter notebook 运行上面的代码

python-3.x scikit-learn dask gridsearchcv dask-ml

2019-08-27T06:00:51.353

0 投票

2 回答

1005 浏览

python - 带有 hidden_layer_sizes 的 GridSearchCV 的奇怪行为

GridSearchCV（无论是 fromsklearn还是 from dask）似乎参数有些奇怪或错误，导致 MLPRegressor 忽略该参数。
我用一个最小的工作示例来展示这种行为。
假设数字初始化features，values在我的情况下

并运行以下代码

结果是

因此在这两种情况下，hidden_layer_sizes参数都具有(100,)不在网格中的值。我做错了什么，或者这里发生了什么？

python-版本 3.6.9
sklearn-版本 0.21.2
dask_ml-版本 1.0.0

python scikit-learn python-3.6 grid-search dask-ml

2019-09-05T05:17:07.243

0 投票

1 回答

320 浏览

dask - HyperbandCV 和其他增量搜索算法是否适用于没有 partial_fit 和 fir 管道的模型？

我一直在深入研究 github 页面并阅读文档，但我并不完全了解 HyperbandCV 是否有助于加快超参数优化。

我正在使用 SKLearn 的管道功能。而且我还在测试不支持 partial_fit 的 LinearRegression() 等模型；它必须一次使用所有数据来拟合参数。这种情况下，HyperbandCV还能用吗？如果使用它，根据我的理解，如果 Pipeline 和所述模型都没有实现部分拟合，那么它到底优化了什么。在 Hyperband 的 api 中，它读取它需要实现 partial_fit 才能使用它。然而，在另一个文档中，它读到它可以替代 RandomizedSearchCV，因为它只花费更少的时间来训练低性能模型。

如果有人可以为我澄清这一点，那就太好了。

dask dask-ml

2019-10-20T04:25:06.227

0 投票

1 回答

190 浏览

python - 如何查找 dask 数组分区的行索引

我有一个 2D (4950, 4950) dask 数组，我想并行计算。使用链接：https ://docs.dask.org/en/latest/delayed-best-practices.html#don-t-call-dask-delayed-on-other-dask-collections

我得到的结果是：

我想找出每个分区的行索引（第一个和最后一个索引），以将每个索引的计算结果保存在最终输出文件中。

我找不到很多与分区相关的文档，非常感谢任何可以帮助查找行索引的帮助/链接。

python dask dask-distributed dask-delayed dask-ml

2019-10-23T21:24:05.213

0 投票

1 回答

469 浏览

dataframe - 使用 Dask DataFrames 展平 JSON

我正在尝试在 Dask 数据帧中展平 JSON 数组对象（没有文件 .json），因为我有很多数据并且我的 RAM 被不断运行的进程消耗，所以我需要一个并行形式的解决方案。

这就是我拥有的 JSON：

这就是我拥有的数据框：

我需要将每个 id 转换为数据框，如下所示：

所有进程必须与 Dask 并行。有什么推荐吗？

提前致谢。

dataframe dask dask-distributed dask-delayed dask-ml

2019-11-02T13:54:30.790

1 2 3 4 5 6 7 8 9 10

问题标签 [dask-ml]

Reference