问题标签 [mlflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
728 浏览

mlflow - 您如何开始使用 MLflow SQL 存储而不是文件系统存储?

如果我开始使用 MLflow,那么我将如何设置数据库存储?创建一个新的 MySQL 数据库或 SQLite 数据库并将 MLflow 指向它是否足够?

我尝试设置跟踪 URI,但如果它不存在,则不会创建数据库。

0 投票
1 回答
946 浏览

python - 将 MultiLabelBinarizer 打包到 scikit-learn 管道中以推断新数据

我正在构建一个多标签分类器来预测基于文本字段的标签。例如,根据电影标题预测类型。我想用来MultiLabelBinarizer()对包含所有适用流派标签的列进行二值化。例如,['action','comedy','drama']被分成三列,值为 0/1。

我使用的原因MultiLabelBinarizer()是我可以使用内置inverse_transform()函数来转换输出数组(例如array([0, 0, 1, 0, 1])直接转换为用户友好的文本输出(['action','drama'])。

分类器有效,但我在预测新数据时遇到问题。我找不到将它集成MultiLabelBinarizer()到我的管道中的方法,以便可以保存和重新加载它以推断新数据。一种解决方案是将其单独保存为泡菜对象并每次将其加载回来,但我想避免在生产中产生这种依赖性。

我知道这类似于我在管道中构建的 tf-idf 向量,但不同之处在于它应用于目标列(流派标签)而不是我的自变量(文本注释)。这是我训练多标签 SVM 的代码:

推理包括在单独的 Databricks 笔记本中从 MLflow 重新加载保存的模型(与在 pickle 文件中加载相同)并使用管道进行预测:

这是我正在使用的所有库:

0 投票
0 回答
28 浏览

python-3.x - 在 mac 上使用 python open() 时,得到“[Errno 2] no such file or directory: 'file:///absolute/path/'”,从 MLflow 生成的路径

我想这已经得到了回答,但我找不到。

我正在尝试使用:

但是,我收到错误:

“[Errno 2] 没有这样的文件或目录:'file:///absolute/path/to/file'”

绝对文件路径是在 os 和 mlflow 的以下命令中生成的:

其中“数据”是在没有指定 artifact_path 的情况下记录的:

我已经坚持了几天,还没有弄清楚这个问题。谢谢您的帮助!

PS这是我的第一篇文章,如果我做错了什么,请随时告诉我。谢谢。

0 投票
2 回答
2132 浏览

mlflow - 从 UI 中删除 mlflow 实验中的运行,因此后端存储中不存在该运行

我发现删除 arun只会将状态从 更改activedeleted,因为如果按 搜索,则运行在 UI 中仍然可见deleted

是否可以从 UI 中删除 arun以节省空间?删除运行时,是否也删除了与运行相对应的工件?

如果没有,是否可以通过 rest 调用删除运行?

0 投票
1 回答
179 浏览

azure-machine-learning-service - 如何使用 azure.mlflow sdk 在 Azure 上部署我的自定义分数文件?

我有一个在 databricks 中生成的自定义 score.py 文件,但我没有找到将其部署到容器上的方法。

我正在使用 mlflow.azureml,在创建图像时我找不到如何特别指定 score.py。

有没有办法使用 lib 指定 score.py?

0 投票
1 回答
1942 浏览

mlflow - 指定 backend-store-uri 后,mlflow 跟踪服务器未启动

我运行 mlflow 如下:

Dockerfile包含以下 CMD 命令

docker run --rm --name mlflow -p 5000:5000 -e BACKEND_STORE_URI=mssql+pymssql://user:pass@mybackendstoreuri/mlflow mlflow

表明

但是随后,容器退出而不启动服务器。

不指定backend store uri,可以看到绑定主机相关的日志,容器不存在

如何运行 mlflow 跟踪服务器并使用后端存储 uri?

0 投票
1 回答
157 浏览

ubuntu - 安装后 mlflow 不起作用(Ubuntu 16、Centos 7)

在此处输入链接描述

我尝试在 VM Azure Ubuntu 16 和 Centos 7 上安装和运行基于 Web 的界面 mlflow。运行命令后:sudo mlflow ui

我无法通过 dns (mydomain.com:5000) 或 IP:http: //123.456.789.123 :5000/ 获取访问 url

在服务器上执行:

wget http://localhost:5000

我得到了 html-page mlflow,即服务器正在运行,但是为什么我不能在浏览器中连接到它?- 错误:连接已超时

ps 此虚拟机上已禁用防火墙。

0 投票
2 回答
3544 浏览

mlflow - 自定义python模型:加载成功但预测/服务失败

我有一个自定义的 python 模型,它基本上设置了 scikit-learn 估计器的几个扰动。我确实成功地使用mlflow run project_directoryCLI 运行了项目,并使用save_model()语句保存了模型。它显示在仪表板上,带有mlflow ui。我什至可以在我的main.py脚本中加载保存的模型并在 pandas.DataFrame 上进行预测而没有任何问题。

当我尝试使用 of 时,我的问题就来mlflow models serve -m project/models/run_idmlflow models predict -m project/models/run_id -i data.json。我收到以下错误:

ModuleNotFoundError: No module named 'multi_model'

在 MLflow 文档中,没有提供自定义模型的示例,因此我无法弄清楚如何解决此依赖问题。这是我的项目树:

multi_model.py

main.py

0 投票
2 回答
294 浏览

databricks - 从 Windows 对数据块进行 MLflow 远程执行会创建无效的 dbfs 路径

我正在研究将 MLflow 用作我们数据科学计划的一部分,并且我希望在 Windows 上的数据块上建立一个远程执行的最小工作示例。

但是,当我执行远程执行时,会在 MLflow 包中的 Windows 上本地创建一个路径,并将其发送到 databricks。此路径指定与包含 MLflow 项目的 Github 存储库相对应的“.tar.gz”文件的上传位置。在 cmd 中,它具有 '\' 和 '/' 的组合,但在 databricks 上,此路径中根本没有分隔符,这会引发 'rsync: No such file or directory (2)' 错误。

更笼统地说,我使用 MLflow 标准示例并遵循 databricks 中的本指南重现了该错误。MLflow 示例是sklearn_elasticnet_wine ,但我必须为参数添加默认值,因此我对其进行了分叉,并且可以在 ( forked repo )中找到可以远程执行的 MLproject 。

该项目可以通过以下命令远程执行(假设已经设置了databricks实例)

其中“db-clusterconfig.json”对应于要在 databricks 中设置的集群,在此示例中设置为

远程运行项目时,cmd中的输出如下:

DBFS 路径有一个前导“/”,其余为“\”。

该命令在 databricks 中启动集群并准备执行作业,但在 databricks 端出现以下错误消息:

我们可以看到相同的路径但没有插入“\”。我在 MLflow Github存储库中缩小了此文件路径的创建范围,其中以下代码创建了路径(第 133 行):

我目前的假设是,os.path.join()在第一行中,以“windows 方式”将字符串连接在一起,使得它们具有反斜杠。然后下面的调用os.path.join()添加一个'/'。然后,databricks 文件系统无法处理此路径,并且某些原因导致“tar.gz”文件无法正确上传或在错误的路径下访问。

还应该提到的是,该项目在本地运行良好。

我正在运行以下版本:

视窗 10

Python 3.6.8

MLflow 1.3.0(也复制了 1.2.0 的故障)

非常感谢任何反馈或建议!

0 投票
0 回答
198 浏览

python - Gridsearch 在 Sacred 中的一项实验

我试图找到一些方法来存储我的 ML 实验,我遇到了一些 python 库,如 Sacred、ModelChimp、MLFlow 等。

我最喜欢的是 Sacred,但我想知道如何以GridSearchCVModelChimp 的方式保存 sklearn 对象,例如。有没有办法GridSearchCV像 ModelChimp 一样包含对象在 Sacred 中所做的每个测试?

此外,我希望能够可视化 folium 库的交互式地图(我将简单地将其导出为 HTML),但我还没有看到这些库中的任何一个都接受对象以超越图像进行可视化。

Sacred 或 ModelChimp 是不错的选择吗?我对 MLflow 或其他库的了解也没有让我信服,但我愿意接受建议。这里还有一些替代方案。你用哪一个?