0

PySpark在我的 PC ( ) 上用样本数据建立了一个初步的 ML ( ) 模型,Windows准确率约为 70%。在磁盘上坚持后model binary,我正在从不同的 jupyter notebook 读取它,准确度接近 70%。现在,如果我在我们的MapR/Unix集群model binary(即使使用完整的数据集,我也遇到了同样的问题(仅供参考)。

由于集群具有 Unix 操作系统,我尝试在 docker 容器(Unix)中训练-持久-测试模型,但没有问题。问题仅在于集群。

从那时起,我一直在摸索可能导致此问题的原因以及如何解决它。请帮忙。

编辑:

这是一个分类问题,我用过pyspark.ml.classification.RandomForestClassifier.

为了保持模型,我只是使用标准设置:

model.write().overwrite().save(model_path)

并加载模型:

model = pyspark.ml.classification.RandomForestClassificationModel().load(model_path)

我已经在模型中使用了StringIndexer,OneHotEncoder等,并将它们保存在磁盘上,以便在另一个 jupyter 笔记本中使用它们(与主模型相同)。

编辑:

Python:3.x
火花:2.3.1

4

0 回答 0