问题标签 [dask-ml]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

71 问题

0 投票

1 回答

95 浏览

python - 安装 dask-ml 引发“解决环境”错误

尝试使用 conda 安装 dask-ml 时出现以下错误。任何想法如何解决这一问题？

2020-12-21T14:56:10.653

0 投票

1 回答

52 浏览

python - 在 dask-ml 中估算单列的平均值

在更改以下所有列时，使用 dask-ml 计算和估算平均值可以正常工作np.nan：

但是，如果我需要Age保持原样怎么办？是否可以指定要估算的列？

python machine-learning dask dask-ml

2020-12-22T14:50:42.840

0 投票

2 回答

269 浏览

python - 同时运行两个 dask-ml 输入器，而不是顺序运行

我可以像这样使用 dask-ml 估算平均值和最常见的值，这很好用：

但是，如果我有 1 亿行数据，dask 似乎会做两个循环，而它本可以只做一个循环，是否可以同时和/或并行而不是顺序运行两个 imputer？实现这一目标的示例代码是什么？

python pandas dask dask-ml

2020-12-22T15:30:18.370

0 投票

0 回答

199 浏览

python - Dask-ml LabelEncoder.fit_tranform() throw AttributeError: 'bool' object has no attribute 'astype'

所以我尝试将 LabelEncoder() 函数应用于object在我的 Dask 数据帧上具有 dtype 的列：

但它总是抛出错误

这是完整的错误：

任何帮助表示赞赏:)

python dataframe dask label-encoding dask-ml

2021-01-21T19:01:40.923

0 投票

3 回答

91 浏览

dask - 集群之间的 Dask 切换或更改集群上下文

我是 Dask 的新手，如果这个问题对你来说很愚蠢，请原谅我。在 Dask 中，我正在使用大约 50GB 数据的 Dask 数据框。该数据是字符串数据，我需要在将其提供给机器学习算法（使用线程快速）之前对其进行预处理（使用过程快速）。现在的问题是，当我针对进程设计集群时，数据帧操作很快，但在线程方面却很慢（但线程在机器学习方面很快）。因此，我正在寻找一种可以从进程切换到线程环境的解决方案。

目前，我正在使用进程集群保存预处理数据，然后将其关闭并启动一个具有线程环境的新集群以应用机器学习。

有没有办法解决这个问题？

请在这方面帮助我。

dask dask-distributed dask-dataframe dask-ml

2021-02-17T05:54:48.177

0 投票

1 回答

129 浏览

python - dask_ml Simple Imputer 因 AttributeError 而失败：“DataFrame”对象没有属性“_data”

我正在将 csv 读入 Dask Dataframe，然后从 dask_ml 库中调用 SimpleImputer。我面临两种不同的问题。

问题 1）Dask 上的 Simple Imputer 因 FileNotFound 而失败，而实际上我能够读取这些列。代码：

输出：

从 Pandas 读取 csv 然后放入 Dask

输出：SimpleImputer().fitTransform(X) 线上的错误

注意：当我使用 IterativeImputer 来适应变换时，所有这些东西都适用于 pandas。当我尝试使用 dask 生成模型时会出现问题，因为我最终想使用 dask 工作人员来生成我的模型

python pandas dask dask-distributed dask-ml

2021-03-16T14:13:30.207

0 投票

0 回答

292 浏览

python - 需要事先调用 fit 或 load_model ：dask_ml。xgboost 错误

我用 sklearn 库创建了一个模型。为了使用 dask 工作人员，我正在尝试使用 dask_ml 库创建相同的东西。下面是我的代码

以下是我得到的错误：

python dask xgboost dask-distributed dask-ml

2021-03-18T14:59:09.013

0 投票

1 回答

243 浏览

dask-distributed - Dask-Rapids 数据移动和内存不足问题

我在我的项目中使用 dask (2021.3.0) 和 rapids(0.18)。在此，我在 CPU 上执行预处理任务，然后将预处理后的数据传输到 GPU 进行 K-means 聚类。但是在这个过程中，我遇到了以下问题：

1 个工作作业中有 1 个失败：std::bad_alloc:CUDA 错误：~/envs/include/rmm/mr/device/cuda_memory_resource.hpp:69:cudaErrorMemoryAllocation 内存不足（在完全使用 GPU 内存之前它给出了错误，即它是没有完全使用 GPU 内存）

我有一个大小为 40 GB 的 GPU。内存大小 512 GB。

我正在使用以下代码片段：

我也在寻找一种解决方案，以便可以对大于 GPU 内存的数据进行预处理，并且每当 GPU 内存溢出时，溢出的数据就会被传输到临时目录或 CPU 中（就像我们在 dask 中定义临时目录时所做的那样RAM 中有溢出）。

任何帮助都会得到帮助。

dask-distributed cupy rapids dask-ml

2021-03-19T08:29:05.513

0 投票

1 回答

66 浏览

dask - BUG：Dask K-means Exception heppen 数组索引过多

我通过 Dask-K-means（基于 CPU）在形状为 (563, 207383) 的数据集上使用 K-means 聚类，并收到以下错误：

“Dask K-means Exception heppen Too many index for array”

但是当我使用 RapidsAI dask_k-means（基于 GPU）时，它在同一个数据集上运行良好。Dask-Kmeans 中可能存在错误，还是我需要在使用之前设置一些配置？

提前致谢。

dask dask-distributed dask-delayed dask-ml

2021-03-22T06:15:19.770

0 投票

0 回答

76 浏览

python - Dask-Kmeans 大尺寸数组的错误

我遇到了 Dask 的问题，它达到了“msgpack”限制，并在对大型数据集（就大型特征集而言）进行 K-means 聚类期间给出了以下错误：

ValueError: 2395040284 超过 max_bin_len(2147483647)。

我正在使用 msgpack-python 1.0.2 版。有解决此类问题的解决方案吗？

提前致谢。

python dask dask-distributed dask-delayed dask-ml

2021-03-22T17:21:32.303

1 2 3 4 5 6 7 8 9 10

问题标签 [dask-ml]

Reference