问题标签 [dask-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dask - 如何从 CuPy 数组创建一个 dask 数组?
我正在尝试dask.cluster.Kmeans
使用大量数据启动。使用 CPU 是可以的,因为我numpy
用dask.array
. 由于未在cupy
.
我试图重现关于从 CuPy 随机生成器生成随机 dask 数组的Mattew Rocklin 示例( https://blog.dask.org/2019/01/03/dask-array-gpus-first-steps ) - 它有效,但这不是我想使用的情况。
cupy
用-包裹dask.array
不起作用。
我期望这个数组的总和,但得到以下错误:
那么我如何通过 dask 数组管理 CuPy 的工作呢?
python - 使用 dask ml StandardScaler 的属性错误
我正在尝试重现 dask-ml 文档中的示例:https://dask-ml.readthedocs.io/en/latest/modules/api.html出于某种原因是用 sklearn 制作的:
这是我用于 dask 的代码:
这会引发以下错误:
AttributeError: 'list' 对象没有属性 'mean'
然后我尝试了这个中等帖子中的一个例子: https ://towardsdatascience.com/speeding-up-your-algorithms-part-4-dask-7c6ed79994ef
这引发了这个错误:
AttributeError:“标量”对象没有属性“副本”
pandas - 如何将 LabelEncoder 应用于 Dask DataFrame 以编码分类值
我有一个 Dask 数据框,它由分类数据和数字(浮点数和整数)数据组成。当我尝试使用下面的代码对分类列进行 LabelEncode 时,出现错误。
错误如下:
此外,我尝试了一种不同的方法:
这给了我一个新的错误:
任何人都可以告诉我将编码应用于 Dask DataFrame 中的分类数据的正确方法。提前致谢。
logistic-regression - scikit-learn 和 dask-ml LogisticRegression 的不同结果
当使用相同的数据运行相同的 LogisticRegression 时,scikit-learn 和 dask-ml 实现之间的结果应该没有差异。
版本:scikit-learn=0.21.2
dask-ml=1.0.0
首先使用 dask-ml LogisticRegression:
现在使用 sklearn LogisticRegression :
scikit-learn 的分数和卷积矩阵
dask-ml 的分数和卷积矩阵
dask - Dask One 热编码器 handle_unknown="ignore",可以解决吗?
我知道它现在没有处理,但它阻止了我能够针对训练有素的 OneHotEncoder / Pipeline 以实时方式(如在实时 API 服务中)对特征进行编码。
如果碰巧需要对以前从未见过的东西进行编码,人们如何解决需要实时编码数据的问题?
谢谢
python-3.x - ImportError:无法导入名称“DeprecationDict”
我正在尝试导入 dask_searchcv 并在导入其他模块时引发错误DeprecationDict
。
我已经安装了 dask_searchcv 版本:0.2.0 和 scikit-learn 版本:0.21.3
我尝试导入 dark_searchcv,如下所示:
我收到以下错误消息:
我尝试使用重新安装 sklearn,pip3 install -U scikit-learn
但问题仍未解决。
注意:我正在使用 jupyter notebook 运行上面的代码
python - 带有 hidden_layer_sizes 的 GridSearchCV 的奇怪行为
GridSearchCV
(无论是 fromsklearn
还是 from dask
)似乎参数有些奇怪或错误,导致 MLPRegressor 忽略该参数。
我用一个最小的工作示例来展示这种行为。
假设数字初始化features
,values
在我的情况下
并运行以下代码
结果是
因此在这两种情况下,hidden_layer_sizes
参数都具有(100,)
不在网格中的值。我做错了什么,或者这里发生了什么?
python-版本 3.6.9
sklearn-版本 0.21.2
dask_ml-版本 1.0.0
dask - HyperbandCV 和其他增量搜索算法是否适用于没有 partial_fit 和 fir 管道的模型?
我一直在深入研究 github 页面并阅读文档,但我并不完全了解 HyperbandCV 是否有助于加快超参数优化。
我正在使用 SKLearn 的管道功能。而且我还在测试不支持 partial_fit 的 LinearRegression() 等模型;它必须一次使用所有数据来拟合参数。这种情况下,HyperbandCV还能用吗?如果使用它,根据我的理解,如果 Pipeline 和所述模型都没有实现部分拟合,那么它到底优化了什么。在 Hyperband 的 api 中,它读取它需要实现 partial_fit 才能使用它。然而,在另一个文档中,它读到它可以替代 RandomizedSearchCV,因为它只花费更少的时间来训练低性能模型。
如果有人可以为我澄清这一点,那就太好了。
python - 如何查找 dask 数组分区的行索引
我有一个 2D (4950, 4950) dask 数组,我想并行计算。使用链接:https ://docs.dask.org/en/latest/delayed-best-practices.html#don-t-call-dask-delayed-on-other-dask-collections
我得到的结果是:
我想找出每个分区的行索引(第一个和最后一个索引),以将每个索引的计算结果保存在最终输出文件中。
我找不到很多与分区相关的文档,非常感谢任何可以帮助查找行索引的帮助/链接。
dataframe - 使用 Dask DataFrames 展平 JSON
我正在尝试在 Dask 数据帧中展平 JSON 数组对象(没有文件 .json),因为我有很多数据并且我的 RAM 被不断运行的进程消耗,所以我需要一个并行形式的解决方案。
这就是我拥有的 JSON:
这就是我拥有的数据框:
我需要将每个 id 转换为数据框,如下所示:
所有进程必须与 Dask 并行。有什么推荐吗?
提前致谢。