工作流程:
- 为了预处理我们的原始数据,我们使用 PySpark。由于数据的大小,我们需要使用 Spark。
- PySpark 预处理作业使用允许您将预处理逻辑导出到文件的管道模型。
- 通过管道模型导出预处理逻辑,您可以在推理时加载管道模型。像这样,您不需要对预处理逻辑进行两次编码。
- 在推理时,我们更愿意在没有 Spark 上下文的情况下执行预处理步骤。Spark 上下文在推理时是多余的,它减慢了执行推理的时间。
我在看Mleap但这仅支持 Scala 语言在没有 Spark 上下文的情况下进行推理。由于我们使用 PySpark,所以坚持使用 Python 语言会很好。
问题:有什么好的替代方法可以让您在训练阶段在 (Py)Spark 中构建管道模型,并允许您使用 Python 语言重用此管道模型,而无需 Spark 上下文?