问题标签 [mlops]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
62 浏览

python - 我无法将 mlrun 集成到我的代码中?

我正在尝试集成 MLRun 以使用 keras 代码对我的有毒评论进行分类,但我无法与我的代码集成。

谁能告诉我在哪里修改我的代码以将 MLRun 集成到我的代码中。我在下面附上我的代码。

MLRun -链接

MLRun 是一个用于跟踪模型和部署的开源软件。我能够训练模型,但无法与 mlrun 集成并部署,我发现文档很难。请帮忙

0 投票
1 回答
157 浏览

azure - 如何从 ML OP 访问 Key Vault

我在 Azure ML 工作区中运行了 ml 代码。使用 Azure MLops 管道通过推理集群部署 Aks 集群部署的 vnet 相同的代码。创建密钥库是为了存储在 jupyter notebook 中访问的变量

0 投票
1 回答
169 浏览

python-3.x - 为什么 MLFLow 在 Docker 环境中使用 MLFlow 项目时无法记录指标、工件?

我正在尝试在 docker 环境中运行 MLProject 后将指标和工件存储在主机上。我期望当实验成功完成时,mlruns/ 文件夹中的工件、指标文件夹应该具有值并显示在 mlflow ui 上,但工件、指标文件夹在 mlruns/ 文件夹中是空的。mlflow ui 也没有反映新的实验。

/home/mlflow_demo/mlflow-demo.py -

/home/mlflow_demo/MLProject -

命令(在 /home/mlflow_demo 中执行): -mlflow run .

运行上述代码后,我得到以下日志 -

文件夹 mlruns/0/0978fdd89ba44bf7b49975ab84838e82/artifacts 和 mlruns/0/0978fdd89ba44bf7b49975ab84838e82/metrics 仍然是空的。

有人可以提供指点。如果问题没有很好地提出,请告诉我。

0 投票
0 回答
111 浏览

azure - 如何在 Azure ML Pipeline 运行时取消 StepRun/Node 运行?

考虑具有三个 PythonScriptStep [step_1, step_a, step_b] 和边缘的 python azureml-sdk 管道:

在 step_1 运行时“一个条件”是基于我们想要取消运行 step_b 但想要继续运行管道(即 step_b)检查的。请找到附加的图表。我尝试以两种方式实现它:

1 删除图中的节点(此 API 是否仅在此管道运行的 Graph 对象实例上执行?)

问题: delete_node(self, node_id) 中的 azureml/pipeline/core/graph.py
引发 NotImplementedError

2 但更有用的是在图片中的一些更高级别的 API 上使用它:

问题step_a_run是一个空列表,因为step_a尚未开始运行。除了StepRun在Run之后继承cancel()所以我取消了整个管道。

在运行时对步骤状态(和状态)管理有什么想法吗?尤其是在开始运行/准备之前取消选择运行的这种情况?

0 投票
1 回答
116 浏览

python - 在 Kedro 中等待节点完成

我在 Kedro 有一个管道,如下所示:

节点 A、B 和 C 不是很占用资源,但它们需要一段时间,所以我想并行运行它们,另一方面,节点 D 几乎使用了我所有的内存,如果它会失败与其他节点一起执行。有没有办法告诉 Kedro 在执行节点 D 之前等待 A、B 和 C 完成并保持代码有条理?

0 投票
0 回答
104 浏览

jupyter-notebook - Kubeflow:笔记本服务器卡在加载中

每当我尝试创建 Kubeflow 笔记本服务器以从 jupyter 笔记本构建管道时,它都会一直加载而不会显示任何错误。

我目前正在使用已经在服务器上启动并运行的 Kubeflow 仪表板,所以我没有自己部署它,也没有在本地实例上工作以使用终端。

知道问题的根源可能是什么以及如何解决它吗?

这是一个可以更好地解释的屏幕截图。

0 投票
0 回答
102 浏览

mlops - 如何使用自定义 sklearn 代码创建 MLOps 顶点 ai 管道?

我正在尝试使用顶点 ai 构建 MLOps 管道,但未能部署它

gcc_aip.ModelDeployOp 抛出错误,应该传递正确的模型 ID 或名称

0 投票
1 回答
647 浏览

amazon-web-services - SageMaker 无权执行:iam:PassRole

我正在关注 SageMaker 示例中的automation_model_retraining_workflow 示例,并在 AWS SageMaker Jupyter 笔记本中运行该示例。我按照示例中给出的所有步骤来创建角色和策略。

但是当我尝试运行以下代码块来创建 Glue 作业时,我遇到了一个错误:

调用 CreateJob 操作时发生错误 (AccessDeniedException):用户:arn:aws:sts::############:assumed-role/AmazonSageMaker-ExecutionRole-######## ####/SageMaker 无权执行:iam:PassRole on resource:arn:aws:iam::############:role/AWS-Glue-S3-Bucket-Access

这就是 AmazonSageMaker-ExecutionPolicy-############ 的样子:

0 投票
1 回答
52 浏览

python - 使用 ParameterServerStrategy 时,我们是否需要每个 worker 中的数据集?

在来自 tensorflow API 的ParameterServerTrainingmodel.fit教程代码中,在部分中有以下代码片段

也有人说

The code in dataset_fn will be invoked on the input device, which is usually the CPU, on each of the worker machines.

这是否意味着数据集必须在每个工作服务器的同一存储上(比如参数服务器和工作服务器是不同的机器)?

或者,一台机器上的参数服务器有什么方法可以将训练数据发送给工作人员,而工作人员机器没有将数据集直接存储在我不明白的 ParameterServerStrategy 中?

0 投票
1 回答
49 浏览

devops - ClearML 如何获得可配置的超参数?

如何在超参数下的 UI 配置面板中显示像 epochs 这样的参数?我希望能够从 UI 中更改时期数和学习率。