问题标签 [dask-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
95 浏览

python - 安装 dask-ml 引发“解决环境”错误

尝试使用 conda 安装 dask-ml 时出现以下错误。任何想法如何解决这一问题?

0 投票
1 回答
52 浏览

python - 在 dask-ml 中估算单列的平均值

在更改以下所有列时,使用 dask-ml 计算和估算平均值可以正常工作np.nan

但是,如果我需要Age保持原样怎么办?是否可以指定要估算的列?

0 投票
2 回答
269 浏览

python - 同时运行两个 dask-ml 输入器,而不是顺序运行

我可以像这样使用 dask-ml 估算平均值和最常见的值,这很好用:

但是,如果我有 1 亿行数据,dask 似乎会做两个循环,而它本可以只做一个循环,是否可以同时和/或并行而不是顺序运行两个 imputer?实现这一目标的示例代码是什么?

0 投票
0 回答
199 浏览

python - Dask-ml LabelEncoder.fit_tranform() throw AttributeError: 'bool' object has no attribute 'astype'

所以我尝试将 LabelEncoder() 函数应用于object在我的 Dask 数据帧上具有 dtype 的列:

但它总是抛出错误

这是完整的错误:

任何帮助表示赞赏:)

0 投票
3 回答
91 浏览

dask - 集群之间的 Dask 切换或更改集群上下文

我是 Dask 的新手,如果这个问题对你来说很愚蠢,请原谅我。在 Dask 中,我正在使用大约 50GB 数据的 Dask 数据框。该数据是字符串数据,我需要在将其提供给机器学习算法(使用线程快速)之前对其进行预处理(使用过程快速)。现在的问题是,当我针对进程设计集群时,数据帧操作很快,但在线程方面却很慢(但线程在机器学习方面很快)。因此,我正在寻找一种可以从进程切换到线程环境的解决方案。

目前,我正在使用进程集群保存预处理数据,然后将其关闭并启动一个具有线程环境的新集群以应用机器学习。

有没有办法解决这个问题?

请在这方面帮助我。

0 投票
1 回答
129 浏览

python - dask_ml Simple Imputer 因 AttributeError 而失败:“DataFrame”对象没有属性“_data”

我正在将 csv 读入 Dask Dataframe,然后从 dask_ml 库中调用 SimpleImputer。我面临两种不同的问题。

问题 1)Dask 上的 Simple Imputer 因 FileNotFound 而失败,而实际上我能够读取这些列。代码:

输出:

  1. 从 Pandas 读取 csv 然后放入 Dask

输出:SimpleImputer().fitTransform(X) 线上的错误

注意:当我使用 IterativeImputer 来适应变换时,所有这些东西都适用于 pandas。当我尝试使用 dask 生成模型时会出现问题,因为我最终想使用 dask 工作人员来生成我的模型

0 投票
0 回答
292 浏览

python - 需要事先调用 fit 或 load_model :dask_ml。xgboost 错误

我用 sklearn 库创建了一个模型。为了使用 dask 工作人员,我正在尝试使用 dask_ml 库创建相同的东西。下面是我的代码

以下是我得到的错误:

0 投票
1 回答
243 浏览

dask-distributed - Dask-Rapids 数据移动和内存不足问题

我在我的项目中使用 dask (2021.3.0) 和 rapids(0.18)。在此,我在 CPU 上执行预处理任务,然后将预处理后的数据传输到 GPU 进行 K-means 聚类。但是在这个过程中,我遇到了以下问题:

1 个工作作业中有 1 个失败:std::bad_alloc:CUDA 错误:~/envs/include/rmm/mr/device/cuda_memory_resource.hpp:69:cudaErrorMemoryAllocation 内存不足(在完全使用 GPU 内存之前它给出了错误,即它是没有完全使用 GPU 内存)

我有一个大小为 40 GB 的 GPU。内存大小 512 GB。

我正在使用以下代码片段:

我也在寻找一种解决方案,以便可以对大于 GPU 内存的数据进行预处理,并且每当 GPU 内存溢出时,溢出的数据就会被传输到临时目录或 CPU 中(就像我们在 dask 中定义临时目录时所做的那样RAM 中有溢出)。

任何帮助都会得到帮助。

0 投票
1 回答
66 浏览

dask - BUG:Dask K-means Exception heppen 数组索引过多

我通过 Dask-K-means(基于 CPU)在形状为 (563, 207383) 的数据集上使用 K-means 聚类,并收到以下错误:

“Dask K-means Exception heppen Too many index for array”

但是当我使用 RapidsAI dask_k-means(基于 GPU)时,它在同一个数据集上运行良好。Dask-Kmeans 中可能存在错误,还是我需要在使用之前设置一些配置?

提前致谢。

0 投票
0 回答
76 浏览

python - Dask-Kmeans 大尺寸数组的错误

我遇到了 Dask 的问题,它达到了“msgpack”限制,并在对大型数据集(就大型特征集而言)进行 K-means 聚类期间给出了以下错误:

ValueError: 2395040284 超过 max_bin_len(2147483647)。

我正在使用 msgpack-python 1.0.2 版。有解决此类问题的解决方案吗?

提前致谢。