问题标签 [mleap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
273 浏览

apache-spark - 无法在 mleap 中创建 SparkBundlecontext 的对象

我已经导入了所需的包。我什至可以导入 SparkBundleContext

但是当我这样做时

我收到这个错误

0 投票
1 回答
716 浏览

apache-spark - 无法在 mleap 中序列化 apache spark 变压器

我使用 Spark 2.1.0 和 Scala 2.11.8。

我正在尝试在 apache spark 中构建一个 twitter 情绪分析模型并使用MLeap 为其提供服务。

当我在不使用 mleap 的情况下运行模型时,一切都很顺利。仅当我尝试以 mleap 的序列化格式保存模型时才会出现问题,以便稍后使用 mleap 为模型提供服务。

这是引发错误的行 -

我在最后一行得到 java.util.NoSuchElementException: key not found: org.apache.spark.ml.feature.Tokenizer。

当我快速搜索时,我发现 mleap 并不支持所有的转换器。但我找不到详尽的清单。

如何确定我正在使用的转换器是否实际上不受支持或是否存在其他错误。

0 投票
2 回答
843 浏览

apache-spark - Scala 到 Java 8 MLeap 的翻译

我想使用MLeap部署 Spark ML 机器学习模型并使用它们进行实时预测。

创建者发布了 Scala 教程,但我需要支持 Java 8 代码库。

我将如何在 Java 8 中实现以下代码:

0 投票
1 回答
330 浏览

apache-spark - 无法在 mleap 中序列化逻辑回归

java.lang.AssertionError:断言失败:此操作仅支持二元逻辑回归

我正在尝试在 mleap 中序列化火花管道。

我在管道中使用 Tokenizer、HashingTF 和 LogisticRegression。

当我尝试序列化我的管道时,出现上述错误。这是我用来序列化管道的代码 -

根据文档,mleap 支持 LR。所以我完全不知道我在这里可能做错了什么。

0 投票
1 回答
107 浏览

apache-spark - mleap中的服务葡萄酒分类模型

我有一个使用 mleap 训练和保存的葡萄酒分类模型。

注意:目前我使用的是 mleap 的 TrueCar 版本。计划尽快更新。

现在,当我尝试启动服务于该模型的服务器时,我能够成功启动服务器,但是每当我尝试调用转换 API 时,它都无法正常工作,并引发以下错误:

这是请求 json -

从逻辑上讲,类字段应该是响应的一部分,并且不应出现在请求数据中。

0 投票
3 回答
1534 浏览

python - mleap AttributeError:“管道”对象没有属性“serializeToBundle”

我在执行mleap 存储库中的示例代码时遇到问题。我希望在脚本而不是 jupyter notebook 中运行代码(这是示例的运行方式)。我的脚本如下:

执行时spark-submit script.py出现以下错误:

任何帮助将非常感激!我已经从 pypy 安装了 mleap。

0 投票
0 回答
173 浏览

apache-spark - 安装 Mleap 火花

当我使用火花壳时--packages ml.combust.mleap:mleap-spark_2.11:0.8.1

我得到如下错误

:::: ERRORS unknown resolver null

未知解析器 null

未知解析器 null

未知解析器 null

:: 使用详细或调试消息级别获取更多详细信息 线程“main”中的异常 java.lang.RuntimeException:[下载失败:org.scalanlp#breeze_2.11;0.13.1!breeze_2.11.jar,下载失败:net. sourceforge.f2j#arpack_combined_all;0.1!arpack_combined_all.jar] at org.apache.spark.deploy.SparkSubmitUtils$.resolveMavenCoordinates(SparkSubmit.scala:1078) at org.apache.spark.deploy.SparkSubmit$.prepareSubmitEnvironment(SparkSubmit.scala: 296) 在 org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:160) 在 org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126) 在 org.apache.spark.deploy .SparkSubmit.main(SparkSubmit.scala)

0 投票
0 回答
153 浏览

serialization - 从我的 TensorFlow 程序生成 mleap 包

我有一个 TensorFlow 模型,我正在尝试将其序列化为 MLeap 包,以便我可以使用基于 MLeap 的预测器进行评分。但我无法从我的 TensorFlow 代码中找到任何 API 来执行此操作。

MLeap 文档讨论了使用 TF 的 freeze_graph api 冻结 TF 图,我这样做了,但是在发布此步骤后,我没有看到有关如何获取从冻结模型 pb 文件生成的包的说明。有人可以帮我找到答案吗?

0 投票
1 回答
119 浏览

scala - 设置 opName 时,Transformer 的 Op 名称不可用

我创建了我的自定义转换器(将字符串添加到列值的简单模型)来测试 Mleap 序列化,但是在为 Mleap 和 Spark 序列化编写我的 Op 文件时,我无法知道我的转换器的名称。

我的reference.conf 文件看起来像这样

当我在我的数据集上仅使用该阶段运行管道时,它工作正常,如果我将 opName 设置为某个字符串或 Bundle.BuiltinOps 成员之一,我什至可以保存管道。

如果我输入一些字符串,则会弹出错误消息:“无法找到密钥:thatString”,如果我使用另一个成员,则错误表明它无法从该成员那里找到密钥(这是完全合理的,我明白为什么它发生了)。

我的问题是如何在我的 Op 文件中声明 opName 时使我的转换器的名称可用。

(如果有人能找到 Hollin Wilkins 那就太棒了:D)

0 投票
2 回答
480 浏览

python - sklearn管道中的文本字段连接

我有一个多行 json 数据集,其中包含多个可以存在或不存在的字段,并且可以包含字符串、字符串列表或更复杂的映射(dicts 列表)中的文本数据

例如。:

需要此数据集作为 sklearn 管道的输入

首先,我正在通过 pandas 读取文件

但我想使用管道转换器,例如DataframeMapper将所有文本字段(甚至是嵌套的)连接到一个巨大的文本字段。考虑到某些字段可能会丢失,是嵌套结构等的一部分。

输出看起来像:

y值 | 文本

1.0 | 列表文本文本中的一些文本更多文本文本项

2.0 | 更多 Text2 text2 items2 in2 list2 text text extra text

当然我可以使用自定义转换器,但由于我也有兴趣将管道转换为 mleap 或 pmml 格式,因此我宁愿尽可能避免使用自定义转换器。

是否有最佳实践甚至简单的方法来做到这一点而不会太老套?


更新

显然我想要的可能有点太多了,但可能更容易一些:有没有办法使用 pandas 中的转换器连接 2 个(或更多)类似字符串的字段:

df[['field1', 'field2']].apply(lambda x: ' '.join(x.astype(str)), axis=1)