我已经使用 pandas 和 scikit learn 开发了一个垃圾邮件分类器,可以将它集成到我们基于 hadoop 的系统中。为此,我需要将我的分类器导出为比酸洗更常见的格式。
预测模型标记语言 (PMML) 是我首选的导出格式。它与我们已经使用的 Cascading 配合得非常好。但是,令人惊讶的是,我找不到任何将 scikit-learn 模型导出到 PMML 的 python 库。
有没有人有过这个用例的经验?是否有任何替代 PMML 的方法可以在 scikit-learn 和 hadoop 之间提供互操作性?一个可靠的 PMML 导出库怎么样?