我在 R 中构建了一个监督学习模型,并以 PMML 格式导出了模型/决策规则。我希望我可以使用 JPMML 库之类的东西直接将 PMML 链接到 MongoDB(因为 JPMML 与 PostgreSQL 集成得很好)。
但是,似乎将 MongoDB 链接到我的 PMML xml 文件的唯一方法是通过 Hadoop 使用级联模式。由于我的数据集不大(<50GB),我并不真的需要 Hadoop。
有没有人在这之前将 PMML 与 MongoDB 一起使用而不必走 hadoop 路线?非常感谢
基本上,您有两种选择:
50 GB 仍然是相当多的数据,因此从易于设置和执行速度的角度来看,选项 #1 显然更可取。是否可以为 MongoDB 编写 Java 用户定义函数 (UDF)?如果是这样,那么就有可能在 MongoDB 中运行 JPMML 库。否则,您可能会看到是否可以将您的 PMML 模型转换为 SQL 脚本。例如,最新版本的KNIME 软件(2.11.1 和更高版本)包含“PMML 到 SQL”转换节点。
如果您退回到选项 #2,那么以下技术文章可能会给您一些启发:将预测模型应用于数据库数据:REST Web 服务方法。