scikit-learn - dask是否支持sklearn learning_curve函数？

翻译自：https://stackoverflow.com/questions/55953522 2019-05-02T13:25:16.450

50 次

我正在使用 sklearn 从随机森林中计算学习曲线。我需要为许多不同的 RF 执行此操作，因此我想使用集群和 Dask 来减少 RF 拟合的时间。

目前我实现了以下算法：

from sklearn.externals import joblib
from dask.distributed import Client, LocalCluster

worker_kwargs = dict(memory_limit="2GB", ncores=4)
cluster = LocalCluster(n_workers=4, threads_per_worker=2, **worker_kwargs) # processes=False?
client = Client(cluster)

X, Y = ..., ...
estimator = RandomForestRegressor(n_jobs=-1, **rf_params)
cv = ShuffleSplit(n_splits=5, test_size=0.2)
train_sizes = [...] # 20 different values

with joblib.parallel_backend('dask', scatter=[X,Y]):
    train_sizes, train_scores, test_scores = learning_curve(estimator, X, Y, cv=cv, n_jobs=-1, train_sizes=train_sizes)

以下是 2 个级别的并行性：

一个用于拟合 RF (n_jobs=-1)
一个用于循环所有训练集大小 (n_jobs=-1)

我的问题是：如果后端是loky，则大约需要 23 秒。

[Parallel(n_jobs=-1)]: Done  50 out of  50 | elapsed:   22.8s finished

现在，如果后端是dask，则需要更多时间：

[Parallel(n_jobs=-1)]: Done  50 out of  50 | elapsed:   30.3s finished

我现在Dask介绍了开销，但我不只是解释了运行时间的所有差异。

dask正在快速开发，我发现很多不同的版本可以做同样的事情，但不知道哪个是最新的。

scikit-learn - dask是否支持sklearn learning_curve函数？

0 回答 0

Related

Reference