问题标签 [pmml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 Python 上使用 PMML 文件和 Augustus 对线性模型进行评分
我是 python、PMML 和 augustus 的新手,所以这个问题有点像新手。我有一个 PMML 文件,我想在每次新的数据迭代后从中评分。我必须使用 Python 和 Augustus 来完成这个练习。我已经阅读了各种文章,其中一些值得一提,因为它们很好。
(http://augustusdocs.appspot.com/docs/v06/model_abstraction/augustus_and_pmml.html,http://augustus.googlecode.com/svn-history/r191/trunk/augustus/modellib/regression/producer/Producer.py _ _ )
我已阅读与评分相关的 augustus 文档以了解其工作原理,但我无法解决此问题。
使用 R 中的汽车数据生成示例 PMML 文件。其中“dist”是相关变量,“速度”是自变量。现在,每当我从方程式(即 dist = -17.5790948905109 + speed*3.93240875912408)收到速度数据时,我都想预测 dist 。我知道它可以在 R 中使用 predict 函数轻松完成,但问题是我在后端没有 R 并且只有 python 与 augustus 一起得分。任何帮助都非常感谢,并提前感谢。
示例 PMML 文件:
r - 无法使用 ctree 生成 PMML 文件
我正在使用 R 上的“iris”数据进行决策树分析。现在的问题是,在使用 print 和 plots 获取输出方面,每件事都可以正常工作,但是当我尝试使用 ctree 生成 PMML 文件时,出现以下错误:
使用 rpart 库虽然我能够成功生成 PMML,但我无法弄清楚为什么 pmml 不是用 ctree 生成的。我把工作和非工作的结果都放在了
我在 Windows(64 位)版本 3.0.2 上使用 R。
如果有人弄清楚它为什么会发生,请提前非常感谢?
python - 我可以使用 Augustus (Python) 应用包含 DefineFunction 的 PMML 模型吗?
我使用 Augustus 作为 PMML 模型消费者。我已经修改了添加两个数字的示例以包含一个 DefineFunction 元素,如下所示:
我将此模型保存在一个文件中并尝试像这样运行它:
但是,我收到一个错误:
我正在使用最新的主干(修订版 794)并且能够毫无问题地运行未修改的示例(没有 DefineFunction)。Augustus 是否支持 DefineFunction?
python - 机器学习模型持久性选项
对于持久化和重用训练有素的机器学习模型有什么建议/最佳实践吗?我正在用 Python 或 R 开发模型。然后这些模型必须在生产工作流程中用于评分(其中 R 不可用)。例如,可能有一个在 R 中训练的逻辑回归模型。现在需要针对该模型对新的观察结果进行评分。评分引擎必须快速且可扩展。我想过跟随
PMML ( http://en.wikipedia.org/wiki/Predictive_Model_Markup_Language )。用 R 开发的大多数模型很容易转换为 pmml。但是,我找不到适用于 PMML 模型的有用评分引擎。例如,有 augustus ( https://code.google.com/p/augustus/ ) 但它只实现了 3-4 个模型。
在 Python 中使用 pickle 序列化模型并在 Python 中编写消费者。
关于正确方法的任何想法/建议?
r - R PMML 类分布
在尝试使用 pmml 包将 R 分类器导出到 PMML 时,我注意到树中节点的类分布没有导出。
PMML 通过 ScoreDistribution 元素支持这一点:http ://www.dmg.org/v1-1/treemodel.html
无论如何在 PMML 中有这些信息吗?我想用另一个依赖于此信息的工具来阅读 PMML。
我正在做类似的事情:
r - R randomForest 到 PMML 类索引是错误的
我正在将 R randomForest 模型导出到 PMML。生成的 PMML 始终将类作为 DataDictionary 元素的第一个元素,这并不总是正确的。
有没有办法解决这个问题,或者至少使用自定义扩展元素增加 PMML?这样我就可以把类索引放在那里。
我查看了 pmml 包文档以及 pmmlTransformations 包,但找不到任何可以帮助我解决此问题的内容。
r - 在生产中部署 R 模型的选项
考虑到大数据的爆炸式增长,在生产中部署预测模型似乎没有太多选择。
我了解开源 PMML 可用于将模型导出为 XML 规范。然后可以将其用于数据库内评分/预测。然而,要完成这项工作,您似乎需要使用 Zementis 的 PMML 插件,这意味着该解决方案并不是真正的开源。是否有更简单的开放方式将 PMML 映射到 SQL 以进行评分?
另一种选择是使用 JSON 而不是 XML 来输出模型预测。但在这种情况下,R 模型会放在哪里?我假设它总是需要映射到 SQL...除非 R 模型可以与数据位于同一服务器上,然后使用 R 脚本针对传入的数据运行?
还有其他选择吗?
r - 在 Windows 8 上将 R 模型转换为 PMML 是否有大小限制?
我尝试了几次将 pmml 函数从包 pmml 应用到由包 randomForest 创建的随机森林模型('model.rf'):
每次在我的 Windows 8 系统(i7-4500U / 8gb RAM)上花费几个小时,直到 R 崩溃。
模型相当大。.RData 文件(仅包含模型)约为。10mb 磁盘和:
是内存不足导致的崩溃?我意识到 R 进程在崩溃之前几乎占用了所有可用内存。如果是这样,将我的模型转换为 pmml 需要什么系统?
同样从 iris 示例看来,磁盘上的大小增加了约 15 倍,因为与 R 数据文件相比,XML 不是压缩格式:
iris.rf.RData --> 4kb iris.rf.xml --> 59kb
这个因素是恒定的吗?我的模型的 pmml 版本会在磁盘上约为 150mb 吗?
sas - SAS 到预测模型标记语言
我目前正在实施一个用 SAS 开发的模型。有没有办法直接将 SAS 代码转换为 PMML ?
python - 导出 Scikit Learn Random Forest 以在 Hadoop 平台上使用
我已经使用 pandas 和 scikit learn 开发了一个垃圾邮件分类器,可以将它集成到我们基于 hadoop 的系统中。为此,我需要将我的分类器导出为比酸洗更常见的格式。
预测模型标记语言 (PMML) 是我首选的导出格式。它与我们已经使用的 Cascading 配合得非常好。但是,令人惊讶的是,我找不到任何将 scikit-learn 模型导出到 PMML 的 python 库。
有没有人有过这个用例的经验?是否有任何替代 PMML 的方法可以在 scikit-learn 和 hadoop 之间提供互操作性?一个可靠的 PMML 导出库怎么样?