python - MLeap 问题：无法用 Pyspark 反序列化使用 Scikit-Learn 编写的包。错误：找不到 bundle.json

问问题 2020-06-03T12:17:21.650

80 次

我用 Scikit-Learn 序列化一个模型：

#Generate data
import pandas as pd 
import numpy as np

df = pd.DataFrame(np.random.randn(100, 5), columns=['a', 'b', 'c', 'd', 'e'])
df["y"] = (df['a'] > 0.5).astype(int)
df.head()

from mleap.sklearn.ensemble.forest import RandomForestClassifier

forestModel = RandomForestClassifier()
forestModel.mlinit(input_features='a',
                   feature_names='a',
                           prediction_column='e_binary')


forestModel.fit(df[['a']], df[['y']])

forestModel.serialize_to_bundle("/dbfs/FileStore/tables/mleaptestmodelforest", "model.json")

当我尝试用 Pyspark 阅读它时：

from pyspark.ml.classification import RandomForestClassificationModel

model = RandomForestClassificationModel.deserializeFromBundle("file:/dbfs/FileStore/tables/mleaptestmodelforest")

我有这个错误： java.nio.file.NoSuchFileException: /dbfs/FileStore/tables/mleaptestmodelforest/bundle.json

我没有“bundle.json”。

请问你能帮帮我吗？真的可以用 Scikit-Learn 序列化模型并用 Pyspark 反序列化它吗？

python - MLeap 问题：无法用 Pyspark 反序列化使用 Scikit-Learn 编写的包。错误：找不到 bundle.json

0 回答 0

Related

Reference