问题标签 [dask-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 安装 dask-ml 引发“解决环境”错误
尝试使用 conda 安装 dask-ml 时出现以下错误。任何想法如何解决这一问题?
python - 在 dask-ml 中估算单列的平均值
在更改以下所有列时,使用 dask-ml 计算和估算平均值可以正常工作np.nan
:
但是,如果我需要Age
保持原样怎么办?是否可以指定要估算的列?
python - 同时运行两个 dask-ml 输入器,而不是顺序运行
我可以像这样使用 dask-ml 估算平均值和最常见的值,这很好用:
但是,如果我有 1 亿行数据,dask 似乎会做两个循环,而它本可以只做一个循环,是否可以同时和/或并行而不是顺序运行两个 imputer?实现这一目标的示例代码是什么?
python - Dask-ml LabelEncoder.fit_tranform() throw AttributeError: 'bool' object has no attribute 'astype'
所以我尝试将 LabelEncoder() 函数应用于object
在我的 Dask 数据帧上具有 dtype 的列:
但它总是抛出错误
这是完整的错误:
任何帮助表示赞赏:)
dask - 集群之间的 Dask 切换或更改集群上下文
我是 Dask 的新手,如果这个问题对你来说很愚蠢,请原谅我。在 Dask 中,我正在使用大约 50GB 数据的 Dask 数据框。该数据是字符串数据,我需要在将其提供给机器学习算法(使用线程快速)之前对其进行预处理(使用过程快速)。现在的问题是,当我针对进程设计集群时,数据帧操作很快,但在线程方面却很慢(但线程在机器学习方面很快)。因此,我正在寻找一种可以从进程切换到线程环境的解决方案。
目前,我正在使用进程集群保存预处理数据,然后将其关闭并启动一个具有线程环境的新集群以应用机器学习。
有没有办法解决这个问题?
请在这方面帮助我。
python - dask_ml Simple Imputer 因 AttributeError 而失败:“DataFrame”对象没有属性“_data”
我正在将 csv 读入 Dask Dataframe,然后从 dask_ml 库中调用 SimpleImputer。我面临两种不同的问题。
问题 1)Dask 上的 Simple Imputer 因 FileNotFound 而失败,而实际上我能够读取这些列。代码:
输出:
- 从 Pandas 读取 csv 然后放入 Dask
输出:SimpleImputer().fitTransform(X) 线上的错误
注意:当我使用 IterativeImputer 来适应变换时,所有这些东西都适用于 pandas。当我尝试使用 dask 生成模型时会出现问题,因为我最终想使用 dask 工作人员来生成我的模型
python - 需要事先调用 fit 或 load_model :dask_ml。xgboost 错误
我用 sklearn 库创建了一个模型。为了使用 dask 工作人员,我正在尝试使用 dask_ml 库创建相同的东西。下面是我的代码
以下是我得到的错误:
dask-distributed - Dask-Rapids 数据移动和内存不足问题
我在我的项目中使用 dask (2021.3.0) 和 rapids(0.18)。在此,我在 CPU 上执行预处理任务,然后将预处理后的数据传输到 GPU 进行 K-means 聚类。但是在这个过程中,我遇到了以下问题:
1 个工作作业中有 1 个失败:std::bad_alloc:CUDA 错误:~/envs/include/rmm/mr/device/cuda_memory_resource.hpp:69:cudaErrorMemoryAllocation 内存不足(在完全使用 GPU 内存之前它给出了错误,即它是没有完全使用 GPU 内存)
我有一个大小为 40 GB 的 GPU。内存大小 512 GB。
我正在使用以下代码片段:
我也在寻找一种解决方案,以便可以对大于 GPU 内存的数据进行预处理,并且每当 GPU 内存溢出时,溢出的数据就会被传输到临时目录或 CPU 中(就像我们在 dask 中定义临时目录时所做的那样RAM 中有溢出)。
任何帮助都会得到帮助。
dask - BUG:Dask K-means Exception heppen 数组索引过多
我通过 Dask-K-means(基于 CPU)在形状为 (563, 207383) 的数据集上使用 K-means 聚类,并收到以下错误:
“Dask K-means Exception heppen Too many index for array”
但是当我使用 RapidsAI dask_k-means(基于 GPU)时,它在同一个数据集上运行良好。Dask-Kmeans 中可能存在错误,还是我需要在使用之前设置一些配置?
提前致谢。
python - Dask-Kmeans 大尺寸数组的错误
我遇到了 Dask 的问题,它达到了“msgpack”限制,并在对大型数据集(就大型特征集而言)进行 K-means 聚类期间给出了以下错误:
ValueError: 2395040284 超过 max_bin_len(2147483647)。
我正在使用 msgpack-python 1.0.2 版。有解决此类问题的解决方案吗?
提前致谢。