python - 持续性能降低的机器学习模型

翻译自：https://stackoverflow.com/questions/58279970 2019-10-08T03:50:53.243

42 次

我PySpark在我的 PC ( ) 上用样本数据建立了一个初步的 ML ( ) 模型，Windows准确率约为 70%。在磁盘上坚持后model binary，我正在从不同的 jupyter notebook 读取它，准确度接近 70%。现在，如果我在我们的MapR/Unix集群model binary（即使使用完整的数据集，我也遇到了同样的问题（仅供参考）。

由于集群具有 Unix 操作系统，我尝试在 docker 容器（Unix）中训练-持久-测试模型，但没有问题。问题仅在于集群。

从那时起，我一直在摸索可能导致此问题的原因以及如何解决它。请帮忙。

编辑：

这是一个分类问题，我用过pyspark.ml.classification.RandomForestClassifier.

为了保持模型，我只是使用标准设置：

model.write().overwrite().save(model_path)

并加载模型：

model = pyspark.ml.classification.RandomForestClassificationModel().load(model_path)

我已经在模型中使用了StringIndexer,OneHotEncoder等，并将它们保存在磁盘上，以便在另一个 jupyter 笔记本中使用它们（与主模型相同）。

编辑：

Python：3.x
火花：2.3.1

python - 持续性能降低的机器学习模型

0 回答 0

Related

Reference