4

工作流程

  • 为了预处理我们的原始数据,我们使用 PySpark。由于数据的大小,我们需要使用 Spark。
  • PySpark 预处理作业使用允许您将预处理逻辑导出到文件的管道模型。
  • 通过管道模型导出预处理逻辑,您可以在推理时加载管道模型。像这样,您不需要对预处理逻辑进行两次编码。
  • 在推理时,我们更愿意在没有 Spark 上下文的情况下执行预处理步骤。Spark 上下文在推理时是多余的,它减慢了执行推理的时间。

我在看Mleap但这仅支持 Scala 语言在没有 Spark 上下文的情况下进行推理。由于我们使用 PySpark,所以坚持使用 Python 语言会很好。

问题:有什么好的替代方法可以让您在训练阶段在 (Py)Spark 中构建管道模型,并允许您使用 Python 语言重用此管道模型,而无需 Spark 上下文?

4

0 回答 0