0

如何在分布式大数据平台(例如 Apache Spark)中训练(拟合)模型,同时在独立机器(例如 JVM)中使用该模型并尽可能少地依赖?

我听说过PMML ,但我不确定它是否足够。Spark 2.0 也支持持久模型保存,但我不确定加载和运行这些模型需要什么。

4

1 回答 1

2

Apache Spark 持久性是关于以 JSON 数据格式保存和加载 Spark ML 管道(将其视为 Python 的 pickle 机制或 R 的 RDS 机制)。这些 JSON 数据结构映射到 Spark ML 类。它们在其他平台上没有意义。

至于 PMML,那么您可以使用JPMML-SparkML库将 Spark ML 管道转换为 PMML 文档。您可以使用JPMML-Evaluator库执行 PMML 文档(无论它们来自 Apache Spark、Python 还是 R) 。如果您使用Apache Maven来管理和构建您的项目,则可以通过向项目的 POM 添加一个依赖项声明来包含 JPMML-Evaluator。

于 2016-08-19T17:05:06.077 回答