问题标签 [mlops]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

72 问题

0 投票

1 回答

61 浏览

python - 如何分离机器学习项目的开发和生产需求.txt？

我正在寻找更好的 AI/ML 项目代码结构。我知道cookiecutter就在那里，我真的很喜欢它。

这就是问题所在：我希望我的 Jupyter Notebook 像 cookiecutter 一样添加到项目结构中。但是当我想部署模型和 Ipip install requirements.txt时，将安装所有包（包括 Jupyter Notebook 要求）。我不喜欢它。

是否有任何项目结构，其中包括内部笔记本但单独的 requirements.txt 用于分析和部署？

创建两个文件夹是否是个好主意：一个用于使用 requirements.txt 对笔记本进行分析，另一个用于具有自己的 requirements.txt 的模型部署？

2021-10-11T12:49:21.643

0 投票

0 回答

135 浏览

python - 使用 MLFlow 保存 PyTorch 模型时出现错误无法获取属性 Net

使用one-click-mlflow安装 MLFlow 后，我使用在用户指南中找到的默认命令保存 pytorch 模型。您可以在下面找到命令：

保存的神经网络很简单，这基本上是一个以Xavier初始化和双曲正切为激活函数的两层神经网络。

Jupyter Notebook 中的每件事都运行良好。我可以记录指标和其他工件，但是当我保存模型时，我收到以下错误消息：

有人可以解释一下有什么问题吗？

python pytorch virtualenv mlflow mlops

2021-10-13T07:44:49.723

0 投票

3 回答

381 浏览

azure - Azure ML 发布错误 AZUREML_COMPUTE_USE COMMON_RUNTIME

在 2021 年 10 月 13 日，在我们在 Azure ML 平台中的应用程序中，我们收到了这个导致管道步骤失败的新错误 - python 模块导入失败 -警告堆栈 <- 导致管道运行时错误的警告

我们需要将其设置为 false。为什么会失败？选择退出时的确切（和长期）后果是什么？此外，Azure ML 用户 - 你认为它的推出是否恰当？

azure machine-learning azure-devops azureml mlops

2021-10-13T11:03:15.570

0 投票

0 回答

84 浏览

amazon-s3 - 如何配置 mlflow 跟踪服务的工件存储以使用 minio STS 生成的 acces_key、secret_key 和 session_token 连接到 minio S3

Minio 配置了 LDAP，并且正在使用 STS API 生成具有 AssumeRoleWithLDAPIdentity 的用户凭据（参考）
从上面的值，我设置变量 AWS_ACCESS_KEY、AWS_SECRET_KEY、AWS_SESSION_TOKEN（参考）

尝试将模型推送到 mlflow 以存储在 minio 工件中时出现错误

amazon-s3 minio mlflow mlops

2021-10-14T15:38:30.190

0 投票

0 回答

96 浏览

mlops - Triton 推理服务器：显式模型控制

我需要一些关于部署具有显式模型控制的 Triton 推理服务器的建议。从外观上看，这种模式让用户可以最大程度地控制哪个模型上线。但我无法解决的问题是如何加载模型，以防服务器在生产中出现故障，从而触发新实例的生成。

我能想到的唯一解决方案是让服务定期轮询服务器，不断检查我的实时模型是否真正活跃，如果没有，则加载它们。但这似乎是一个相当复杂的过程。

我想知道其他人是如何解决这个问题的。

提前致谢

mlops tritonserver

2021-10-14T17:55:42.817

0 投票

1 回答

349 浏览

python - Vertex AI - ModelDeployOp(...) 上没有名为“google_cloud_pipeline_components.remote”的模块

我创建了一个简单的管道来训练模型并将其部署到 Vertex AI 端点。我注意到，在尝试使用该 google_cloud_pipeline_components.aiplatform.ModelDeployOp()组件部署模型时，它会返回一个错误。

如果我们查看google_cloud_pipeline_components.aiplatform的文档，我们可以找到 ModelDeployOp() 的两个条目。一个说明他们如何将原始方法转换为组件，另一个是有关如何使用 ModelDeployOp()方法的文档。

如果我们看看他们是如何转换方法的，我们会发现以下信息：...

在查看我的 gcp 日志记录重新运行的错误时：

似乎这是容器本身内部的问题。

所以......我想我的问题是我假设这是图书馆中的一个错误是否正确？有什么解决方法吗？

提前致谢。

python google-cloud-platform google-cloud-vertex-ai mlops

2021-10-21T09:21:22.480

0 投票

0 回答

16 浏览

machine-learning - 使用教程时协作出错

我正在运行一个驾驶员排名和应用盛宴的示例，但是当我训练我的模型时，它显示了这个错误：

machine-learning data-science mlops

2021-10-25T15:57:06.533

0 投票

0 回答

41 浏览

docker - 在张量流服务中记录预测请求/响应

目前使用 TensorFlow 通过 docker 服务来部署对象检测模型。有没有办法记录所有预测请求/响应，以便我可以在本地保存和查看它们以进行调试？输入图像以二进制字符串形式出现。是否可以使用 docker 或者是否有另一种涉及更改源代码和构建自定义图像的方法？是否有另一种部署工具可以做得更好？

docker tensorflow object-detection tensorflow-serving mlops

2021-11-04T19:39:03.337

0 投票

1 回答

84 浏览

python - Azure Data Lake Storage Gen2 (ADLS Gen2) 作为 Kedro 管道的数据源

根据 Kedro 的文档，Azure Blob 存储是可用的数据源之一。这是否扩展到 ADLS Gen2 ？

还没有尝试过 Kedro，但在我投入一些时间之前，我想确保我可以连接到 ADLS Gen2。

先感谢您！

python kedro mlops

2021-11-12T09:23:40.827

0 投票

1 回答

122 浏览

python - 如何在 GKE for DASK 中增加调度程序内存

我在 GCP 上部署了一个 kubernetes 集群，结合了 prefect 和 dask。这些作业在正常情况下运行良好，但无法扩展 2 倍的数据。到目前为止，我已经将其范围缩小到调度程序由于高内存使用而被关闭。 Dask调度程序内存一旦内存使用量达到2GB，作业就会失败，并出现“未检测到心跳”错误。

有一个单独的构建 python 文件可用，我们在其中设置工作内存和 cpu。有一个 dask-gateway 包，我们可以在其中获取网关选项并设置工作内存。

我无法弄清楚在哪里以及如何增加 dask-scheduler 的内存分配。

python google-kubernetes-engine dask prefect mlops

2021-11-15T10:29:54.780

1 2 3 4 5 6 7 8 9 10

问题标签 [mlops]

Reference