0

我正在尝试将 MLFlow 服务器与 GCP 上的 Kubeflow 集群集成。为此,我创建了一个 MLFlow 部署并使用负载均衡器公开它。

机器学习代码作为 Pod 部署在 Kubeflow 集群上。MLflow 服务器 IP:PORT 用于记录参数(例如超参数)和工件(例如模型)。

问题是工件仅记录在 docker 映像(带有机器学习代码的 pod)中。另一方面,在提供 MLflow 服务器 IP:PORT 后,参数日志记录工作得非常好。

这是一个屏幕截图。 在此处输入图像描述

4

1 回答 1

0

简单的解决方案是创建一个卷并将其安装到 ml 模式 pod 和 mlflow pod。这仅表明您的文件不在 UI 可访问的卷中。请分享有关 mlflow pod 和 ml model pod 的详细信息。假设 Mod1 是您的模型的 pod Mlflowpod 是部署 mlflow 的地方。您创建一个卷“Mlflow-artifacts”,将其附加到两个 pod。并将其设置为 mlflow 服务的默认后端 uri。这肯定会有所帮助。由于两个 pod 都在同一个集群中,因此您遇到任何负载平衡器或路由问题的可能性非常低。

于 2020-10-08T14:52:43.067 回答