问题标签 [dask-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
561 浏览

python - 如何将 Dask 数据帧作为输入传递给 dask-ml 模型?

通常的 ML 管道涉及将 pandas 或 dask 数据帧处理成可以传递给 ML 模型的形式。然而,许多 dask-ml 模型不能接受 Dask 数据帧,因为它们不跟踪每个分区的行数。调用该fit方法会抛出一个Cannot fit on dask.dataframe due to unknown partition lengths error. 我应该怎么做才能将 Dask 数据帧传递给 dask-ml 模型?

这是一个例子:

0 投票
0 回答
97 浏览

python - 相当于 dask-ml 中 scikit-learn 的 GroupShuffleSplit?

我想将我的数据拆分为测试集和训练集,但是随着时间的推移我反复观察人们,所以我想以一种没有人在测试和训练中都出现观察的方式进行拆分训练数据集。要在 scikit-learn 中进行这种拆分,我会使用GroupShuffleSplit做这样的事情:

我如何使用 Dask 或 Dask-ML 做到这一点?

0 投票
1 回答
470 浏览

python - 为什么我的代码在 Dask Python 中编写 CSV 文件需要这么长时间

下面是我的 Python 代码:

创建一个 100MB 的 CSV 文件需要 6 分钟。

0 投票
1 回答
186 浏览

python - 如何从由制表符和换行符分隔的数据字符串创建 dask 数据帧

我的数据格式为字符串,由 \ 字符(用于列)和换行符 \n 用于行分隔。

看起来 Dask.array.from_array() 只支持一个数组作为输入。

虽然我可以将上述文本转换为 np.array 使用

想知道是否有相当于直接将字符串转换为 dask 数组或数据帧的东西。

0 投票
1 回答
290 浏览

dask - 如何使用 dask_ml 运行 PCA。我收到错误消息,“此函数 (tsqr) 在高瘦矩阵的情况下支持 QR 分解”?

我想对大约 3000 行和 6000 列的数据执行降维。这里观察数 (n_samples) < 特征数 (n_columns)。我无法使用 dask-ml 实现结果,而通过 scikit learn 可以实现相同的结果。我需要对现有代码进行哪些修改?

0 投票
0 回答
220 浏览

dask - 使用 dask_xgboost 训练方法时,Dask 挂起

我正在尝试从http://ml.dask.org/examples/xgboost.html的 dask-ml 文档中重现 dask xgboost 示例。不幸的是,Dask 似乎没有完成培训,我很难追查错误和警告的含义。这是我的代码:

这是输出:

有什么想法吗?

0 投票
1 回答
554 浏览

python - train_test_split - 无法对块大小未知的 Dask 数组进行操作

我有一个文本分类数据集,我在其中使用 dask parquet 来节省磁盘空间,但是当我想将数据集拆分为训练并使用dask_ml.model_selection.train_test_split.

导致 TypeError: Cannot operate on Dask array with unknown chunk sizes.

谢谢您的帮助。

0 投票
0 回答
50 浏览

scikit-learn - dask是否支持sklearn learning_curve函数?

我正在使用 sklearn 从随机森林中计算学习曲线。我需要为许多不同的 RF 执行此操作,因此我想使用集群和 Dask 来减少 RF 拟合的时间。

目前我实现了以下算法:

以下是 2 个级别的并行性:

  • 一个用于拟合 RF (n_jobs=-1)
  • 一个用于循环所有训练集大小 (n_jobs=-1)

我的问题是:如果后端是loky,则大约需要 23 秒。

现在,如果后端是dask,则需要更多时间:

我现在Dask介绍了开销,但我不只是解释了运行时间的所有差异。

dask正在快速开发,我发现很多不同的版本可以做同样的事情,但不知道哪个是最新的。

0 投票
0 回答
154 浏览

dask - 如何在 Dask Dataframe 中使用 Apriori 算法?

我想对我的数据集使用 Apriori 算法来查找相关产品。但是我的数据有1400万条记录,所以不能直接和MLEXTEND一起使用。我已将数据加载到 Dask 数据框中。

谁能帮我解决这个问题?

0 投票
0 回答
111 浏览

dask - 有没有类似的包,比如 Pandas- MLEXTEND for Dask?

在 pandas 中,我们有 MLEXTEND 包来执行 Apriori 算法,我们可以为 Python Dask 提供类似的东西吗?