0

我已经通过客户端连接到我的远程集群,现在我正在尝试使用 Dask-ml

from sklearn.ensemble import RandomForestClassifier
from sklearn.externals import joblib
#import dask_ml.joblib

clf = RandomForestClassifier(n_estimators=200, n_jobs=-1)

with joblib.parallel_backend('dask', scatter = [X,y]):
    clf.fit(X,y)

错误 1) 没有 dask_ml.joblib--我得到一个模块不存在错误

错误 2)如果我删除此导入,我会收到流连接关闭错误

没有看到任何好的文档。关于如何让 Dask-ml 与远程集群一起工作的任何想法?

4

1 回答 1

0
  1. 错误 1

dask_ml.joblib已被删除。您只需要创建一个客户端并joblib.parallel_backend立即使用。

  1. 错误 2

可能是溢出到磁盘的问题。尝试减少您的数据框大小并检查您是否仍然遇到此问题。

我知道您可能已经解决了您的问题,但这个答案可能对其他人有所帮助。

于 2020-05-08T16:34:12.950 回答