我PySpark
在我的 PC ( ) 上用样本数据建立了一个初步的 ML ( ) 模型,Windows
准确率约为 70%。在磁盘上坚持后model binary
,我正在从不同的 jupyter notebook 读取它,准确度接近 70%。现在,如果我在我们的MapR/Unix
集群model binary
(即使使用完整的数据集,我也遇到了同样的问题(仅供参考)。
由于集群具有 Unix 操作系统,我尝试在 docker 容器(Unix)中训练-持久-测试模型,但没有问题。问题仅在于集群。
从那时起,我一直在摸索可能导致此问题的原因以及如何解决它。请帮忙。
编辑:
这是一个分类问题,我用过pyspark.ml.classification.RandomForestClassifier
.
为了保持模型,我只是使用标准设置:
model.write().overwrite().save(model_path)
并加载模型:
model = pyspark.ml.classification.RandomForestClassificationModel().load(model_path)
我已经在模型中使用了StringIndexer
,OneHotEncoder
等,并将它们保存在磁盘上,以便在另一个 jupyter 笔记本中使用它们(与主模型相同)。
编辑:
Python:3.x
火花:2.3.1