apache-spark - 适合分布式，独立预测

Question

如何在分布式大数据平台（例如 Apache Spark）中训练（拟合）模型，同时在独立机器（例如 JVM）中使用该模型并尽可能少地依赖？

我听说过PMML ，但我不确定它是否足够。Spark 2.0 也支持持久模型保存，但我不确定加载和运行这些模型需要什么。

score 2 · Accepted Answer

Apache Spark 持久性是关于以 JSON 数据格式保存和加载 Spark ML 管道（将其视为 Python 的 pickle 机制或 R 的 RDS 机制）。这些 JSON 数据结构映射到 Spark ML 类。它们在其他平台上没有意义。

至于 PMML，那么您可以使用JPMML-SparkML库将 Spark ML 管道转换为 PMML 文档。您可以使用JPMML-Evaluator库执行 PMML 文档（无论它们来自 Apache Spark、Python 还是 R）。如果您使用Apache Maven来管理和构建您的项目，则可以通过向项目的 POM 添加一个依赖项声明来包含 JPMML-Evaluator。

apache-spark - 适合分布式，独立预测

1 回答 1

Related

Reference