问题标签 [mlops]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
61 浏览

python - 如何分离机器学习项目的开发和生产需求.txt?

我正在寻找更好的 AI/ML 项目代码结构。我知道cookiecutter就在那里,我真的很喜欢它。

这就是问题所在:我希望我的 Jupyter Notebook 像 cookiecutter 一样添加到项目结构中。但是当我想部署模型和 Ipip install requirements.txt时,将安装所有包(包括 Jupyter Notebook 要求)。我不喜欢它。

是否有任何项目结构,其中包括内部笔记本但单独的 requirements.txt 用于分析和部署?

创建两个文件夹是否是个好主意:一个用于使用 requirements.txt 对笔记本进行分析,另一个用于具有自己的 requirements.txt 的模型部署?

0 投票
0 回答
135 浏览

python - 使用 MLFlow 保存 PyTorch 模型时出现错误无法获取属性 Net

使用one-click-mlflow安装 MLFlow 后,我使用在用户指南中找到的默认命令保存 pytorch 模型。您可以在下面找到命令:

保存的神经网络很简单,这基本上是一个以Xavier初始化和双曲正切为激活函数的两层神经网络。

Jupyter Notebook 中的每件事都运行良好。我可以记录指标和其他工件,但是当我保存模型时,我收到以下错误消息:

有人可以解释一下有什么问题吗?

0 投票
3 回答
381 浏览

azure - Azure ML 发布错误 AZUREML_COMPUTE_USE COMMON_RUNTIME

在 2021 年 10 月 13 日,在我们在 Azure ML 平台中的应用程序中,我们收到了这个导致管道步骤失败的新错误 - python 模块导入失败 -警告堆栈 <- 导致管道运行时错误的警告

我们需要将其设置为 false。为什么会失败?选择退出时的确切(和长期)后果是什么?此外,Azure ML 用户 - 你认为它的推出是否恰当?

0 投票
0 回答
84 浏览

amazon-s3 - 如何配置 mlflow 跟踪服务的工件存储以使用 minio STS 生成的 acces_key、secret_key 和 session_token 连接到 minio S3

  • Minio 配置了 LDAP,并且正在使用 STS API 生成具有 AssumeRoleWithLDAPIdentity 的用户凭据(参考

  • 从上面的值,我设置变量 AWS_ACCESS_KEY、AWS_SECRET_KEY、AWS_SESSION_TOKEN(参考

尝试将模型推送到 mlflow 以存储在 minio 工件中时出现错误

0 投票
0 回答
96 浏览

mlops - Triton 推理服务器:显式模型控制

我需要一些关于部署具有显式模型控制的 Triton 推理服务器的建议。从外观上看,这种模式让用户可以最大程度地控制哪个模型上线。但我无法解决的问题是如何加载模型,以防服务器在生产中出现故障,从而触发新实例的生成。

我能想到的唯一解决方案是让服务定期轮询服务器,不断检查我的实时模型是否真正活跃,如果没有,则加载它们。但这似乎是一个相当复杂的过程。

我想知道其他人是如何解决这个问题的。

提前致谢

0 投票
1 回答
349 浏览

python - Vertex AI - ModelDeployOp(...) 上没有名为“google_cloud_pipeline_components.remote”的模块

我创建了一个简单的管道来训练模型并将其部署到 Vertex AI 端点。我注意到,在尝试使用该 google_cloud_pipeline_components.aiplatform.ModelDeployOp()组件部署模型时,它会返回一个错误。

如果我们查看google_cloud_pipeline_components.aiplatform的文档,我们可以找到 ModelDeployOp() 的两个条目。一个说明他们如何将原始方法转换为组件,另一个是有关如何使用 ModelDeployOp()方法的文档。

如果我们看看他们是如何转换方法的,我们会发现以下信息:...

在查看我的 gcp 日志记录重新运行的错误时:

似乎这是容器本身内部的问题。

所以......我想我的问题是我假设这是图书馆中的一个错误是否正确?有什么解决方法吗?

提前致谢。

0 投票
0 回答
16 浏览

machine-learning - 使用教程时协作出错

我正在运行一个驾驶员排名和应用盛宴的示例,但是当我训练我的模型时,它显示了这个错误:

0 投票
0 回答
41 浏览

docker - 在张量流服务中记录预测请求/响应

目前使用 TensorFlow 通过 docker 服务来部署对象检测模型。有没有办法记录所有预测请求/响应,以便我可以在本地保存和查看它们以进行调试?输入图像以二进制字符串形式出现。是否可以使用 docker 或者是否有另一种涉及更改源代码和构建自定义图像的方法?是否有另一种部署工具可以做得更好?

0 投票
1 回答
84 浏览

python - Azure Data Lake Storage Gen2 (ADLS Gen2) 作为 Kedro 管道的数据源

根据 Kedro 的文档,Azure Blob 存储是可用的数据源之一。这是否扩展到 ADLS Gen2 ?

还没有尝试过 Kedro,但在我投入一些时间之前,我想确保我可以连接到 ADLS Gen2。

先感谢您 !

0 投票
1 回答
122 浏览

python - 如何在 GKE for DASK 中增加调度程序内存

我在 GCP 上部署了一个 kubernetes 集群,结合了 prefect 和 dask。这些作业在正常情况下运行良好,但无法扩展 2 倍的数据。到目前为止,我已经将其范围缩小到调度程序由于高内存使用而被关闭。 Dask调度程序内存 一旦内存使用量达到2GB,作业就会失败,并出现“未检测到心跳”错误。

有一个单独的构建 python 文件可用,我们在其中设置工作内存和 cpu。有一个 dask-gateway 包,我们可以在其中获取网关选项并设置工作内存。

我无法弄清楚在哪里以及如何增加 dask-scheduler 的内存分配。