问题标签 [mleap]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 无法从 Spark 模型在 Mleap 运行时中运行转换
我目前正在测试 Mleap 解决方案,以便对 Spark 模型进行预测。为了做到这一点,我首先实现了线性回归的 Spark 示例,如下所述:https ://spark.apache.org/docs/2.3.0/ml-classification-regression.html#linear-regression I'已经能够将模型保存在 Mleap 包中并在另一个 Spark 上下文中重用。现在,我想在 Mleap 运行时使用这个包,但我面临一些强制转换问题,使其无法正常工作
错误来自架构定义:
“功能”部分是一组分组的列。我尝试了很多事情,但没有运气:
=> 这给了我
所以我尝试了:
但它给了我
这是整个代码:
我现在对这种类型映射有点迷失了。任何想法?
谢谢,
斯蒂芬妮
scala - 是否可以为 MLeap Transformer 提供更多输入
我有一个 mleap Transformer,它必须有大约 14 个输入进行转换。我尝试创建核心模型,但是当我增加输入变量的数量时我看到了错误,否则它不会产生错误。
其显示类型不匹配
有什么建议需要做吗?mleap的新手。
apache-spark - MLeap 和 Spark ML SQLTransformer
我有个问题。我正在尝试将 PySpark ML 模型序列化为 mleap。但是,该模型使用 SQLTransformer 来执行一些基于列的转换,例如添加某些列的日志缩放版本。众所周知,Mleap 不支持 SQLTransformer - 请参见此处: https ://github.com/combust/mleap/issues/126 所以我已经实现了这两个建议中的前者:
- 对于非行操作,将 SQL 移出您计划序列化的 ML 管道
- 对于基于行的操作,使用可用的 ML 转换器或编写自定义转换器 <- 这是自定义转换器文档将提供帮助的地方。
我已经对用于构建模型的训练数据进行了外部化 SQL 转换,并且在运行模型进行评估时对输入数据执行了相同的操作。
我遇到的问题是我无法在 2 个模型中获得相同的结果。模型 1 - Pure Spark ML 模型包含
模型 2 - 具有 SQL 查询的外部化版本在构建模型时在训练数据上运行。转换是模型 1 中 SQLTransformer 之后的所有内容:
我想知道如何去调试这个问题。有没有办法在每个阶段之后以某种方式比较结果以查看差异出现在哪里?任何建议表示赞赏。
continuous-integration - ML 模型部署 CI/CD
我在 DataBricks 上使用 MLFlow 训练模型,并将最终模型输出到 S3。然后,使用 Seldon-Core 将模型打包并部署到 AWS EKS。
我正在寻找通过从 S3 获取模型、将其打包到 docker 容器中并使用 Seldon-Core K8S 模板将其推送到 AWS EKS 来弥合差距的工具。
我相信似乎适合这项工作的工具是 Kubeflow Pipelines。其他竞争者是 Jenkins、Gitlab 和 TravisCI。
Kubeflow 是绝对适合这项工作的工具吗? Kubeflow 与其他人相比有哪些优缺点?如果有人已经做过研究,甚至可能建造了管道......
mleap - Mleap 计算置信度和特征分数
我能够成功地将 pyspark 生成的 RandomForestModel 序列化为 Mleap 包并使用 mleap-runtime 运行它。我想获得每个功能的置信度得分和得分。有没有办法在不使用任何火花依赖项的情况下实现这一目标?
r - 什么可能导致 sparklyr 和 mleap ml_write_bundle 示例中的错误?
我正在尝试遵循 RStudio-MLeap 示例 ( https://github.com/rstudio/mleap ),但在“ml_write_bundle()”处出现错误。有谁知道如何排除故障?
对于此示例,我在 macOS 10.15.4 上使用 spark-2.4.3-bin-hadoop2.7 和 mleap_1.0.0 sparklyr_1.2.0。
python - 序列化时使用 Skicit-learn 破坏 MLeap:对象没有属性“input_features”
当我尝试序列化模型时,我遇到了 MLeap 0.16 和 Python 3 的问题。这是我的代码:
错误:
有没有人找到解决方法?
python - 我没有成功用 Scikit-Learn 和 Python 中的 MLeap 保存(序列化)一个 zip 文件
我试过了:
我收到了这个错误:
No such file or directory: 'jar:file:/dbfs/FileStore/tables/mleaptestmodelforestpysparkzip/randomforest.zip.node'
我也试过:forestModel.serialize_to_bundle("jar:file:/dbfs/FileStore/tables/mleaptestmodelforestpysparkzip/randomforest.zip")
并收到一条错误消息,指出缺少“model_name”属性。
请问你能帮帮我吗?
我添加了我尝试做的所有事情以及得到的结果:
到 Zip 的管道:
1.
pipeline.serialize_to_bundle("jar:file:/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip", model_name="forest")
=> FileNotFoundError:[Errno 2] 没有这样的文件或目录:'jar:file:/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip/model.json'
2.
pipeline.serialize_to_bundle("jar:file:/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip", model_name="forest", init=True)
FileNotFoundError:[Errno 2] 没有这样的文件或目录:'jar:file:/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip/forest'
3.
pipeline.serialize_to_bundle("jar:file:/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip", model_name="forest", init=True)
并创建“/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip/forest”
=> FileNotFoundError:[Errno 2] 没有这样的文件或目录:'jar:file:/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip/forest'
4.
pipeline.serialize_to_bundle("/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip", model_name="forest", init=True)
=> FileNotFoundError:[Errno 2] 没有这样的文件或目录:'/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip/forest'
5.
pipeline.serialize_to_bundle("/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip", model_name="forest", init=True)
=> OSError: [Errno 95] Operation not supported - 但保存一些东西
pipeline.serialize_to_bundle("jar:dbfs:/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip", model_name="forest", init=True)
=> FileNotFoundError: [Errno 2] 没有这样的文件或目录:'jar:dbfs:/dbfs/FileStore/tables/mleap/pipeline_zip/1/model.zip/forest
7.
pipeline.serialize_to_bundle("jar:dbfs:/FileStore/tables/lifttruck_mleap/pipeline_zip2/1/model.zip", model_name="forest", init=True)
=> FileNotFoundError:[Errno 2] 没有这样的文件或目录:'jar:dbfs:/FileStore/tables/mleap/pipeline_zip/1/model.zip/forest'
8.
pipeline.serialize_to_bundle("dbfs:/FileStore/tables/lifttruck_mleap/pipeline_zip2/1/model.zip", model_name="forest", init=True)
=> FileNotFoundError:[Errno 2] 没有这样的文件或目录:'dbfs:/FileStore/tables/mleap/pipeline_zip2/1/model.zip/forest'
要压缩的模型
forest.serialize_to_bundle("jar:file:/dbfs/FileStore/tables/mleap/random_forest_zip/1/model.zip", model_name="forest")
=> FileNotFoundError:[Errno 2] 没有这样的文件或目录:'jar:file:/dbfs/FileStore/tables/mleap/random_forest_zip/1/model.zip/forest.node'
forest.serialize_to_bundle("jar:file:/dbfs/FileStore/tables/mleap/random_forest_zip/1", model_name="model.zip")
=> FileNotFoundError: [Errno 2] 没有这样的文件或目录:'jar:file:/dbfs/FileStore/tables/mleap/random_forest_zip/1/model.zip.node'
forest.serialize_to_bundle("/dbfs/FileStore/tables/mleap/random_forest_zip/1", model_name="model.zip")
=> 不要保存拉链。而是保存一个包。
python - MLeap 问题:无法用 Pyspark 反序列化使用 Scikit-Learn 编写的包。错误:找不到 bundle.json
我用 Scikit-Learn 序列化一个模型:
当我尝试用 Pyspark 阅读它时:
我有这个错误:
java.nio.file.NoSuchFileException: /dbfs/FileStore/tables/mleaptestmodelforest/bundle.json
我没有“bundle.json”。
请问你能帮帮我吗?真的可以用 Scikit-Learn 序列化模型并用 Pyspark 反序列化它吗?
java - 如何在 Java 中使用 MLeap DenseTensor
我正在使用 MLeap 在 Java 程序中运行 Pyspark 逻辑回归模型。一旦我运行管道,我就可以得到一个DefaultLeapFrame
包含一行的对象Stream(Row(1.3,12,3.6,DenseTensor([D@538613b3,List(2)),1.0), ?)
。
但我不确定如何实际检查 DenseTensor 对象。当我getTensor(3)
在这一行上使用时,我得到一个对象。我不熟悉 Scala,但这似乎就是与之交互的方式。在 Java 中,如何获取此 DenseVector 中的值?
这大致是我在做什么。我猜想使用 Object 不适合这种类型。. .
谢谢