我已经在本地训练了我的 pycaret 模型,然后我把它推到了 S3。现在我想在我更大的生产数据集上运行 predict_model() 方法。
使用 boto3,我将模型 pickle 文件从 S3 复制到 Spark EMR 集群的主节点。然后我使用导入库
from pycaret.classification import *
并尝试应用我的预测如下 -
model_path = '/tmp/catboost_model_aug19'
saved_model = load_model(model_path)
Transformation Pipeline and Model Successfully Loaded
new_data = spark.sql("select * from table").toPandas()
df = predict_model(saved_model, data = new_data)
当我运行predict_model()
它时出错说Pipeline not found
或者,当我在本地机器上运行相同的代码时,它工作正常。如何解决此错误?