“mlops”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

740 浏览

tensorflow - Tensorflow Extended：是否可以在 Tensorflow 扩展流中使用 pytorch 训练循环

我已经使用 pytorch 训练了一个图像分类模型。
现在，我想把它从研究转移到生产管道。
我正在考虑使用 TensorFlow 扩展。我非常怀疑我是否能够在 TensorFlow 扩展管道中使用我的 PyTorch 训练模型（我可以将训练模型转换为 ONNX，然后转换为 Tensorflow 兼容格式）。我不想重写和重新训练 TensorFlow 的训练部分，因为这将是一个很大的开销。是否有可能或有没有更好的方法来生产 PyTorch 训练的模型？

2020-11-12T17:31:03.830

0 投票

1 回答

153 浏览

amazon-sagemaker - 如何在 SageMaker 管道中创建超参数调整步骤？

我正在尝试使用最新的 SageMaker Python SDK (v2.23.0) 来实现包含超参数调整作业的 SageMaker 管道。但是，我在模块 sagemaker.workflow.steps 或 sagemaker.workflow.step_collections 中没有看到任何我可以使用的东西。有一个 TrainingStep 课程，但它不适用于 HPO。

目前不支持吗？

amazon-sagemaker hyperparameters mlops

2020-12-28T19:09:53.660

0 投票

1 回答

1753 浏览

python - 使用 mlflow 为自定义 python 模型提供评分

我正在使用从带有 mlflow 的 ml 软件生成的 Python 代码来读取数据帧，执行一些表操作并输出数据帧。我能够成功运行代码并将新数据框保存为工件。但是我无法使用 log_model 记录模型，因为它不是我们训练和拟合的 lr 或分类器模型。我想为此记录一个模型，以便它可以提供新数据并使用休息 API 进行部署

python deployment mlflow mlops

2021-01-25T15:00:24.463

0 投票

1 回答

128 浏览

google-cloud-platform - GCP 上的 Pytorch：机器类型在此端点上不可用

我是 GCP 的新手，所以请原谅这里可能会询问/遗漏一些明显的东西。

我正在尝试使用自定义 pytorch 模型在 GCP 上部署和创建版本资源。在我尝试创建模型的新版本之前，一切都运行良好。然后我不断收到： INVALID_ARGUMENT：机器类型在此端点上不可用。

我试过在他们的列表中切换不同类型，但没有运气。我错过了什么？

这是我运行部署的脚本：

谢谢！

google-cloud-platform pytorch continuous-integration continuous-deployment mlops

2021-05-05T09:37:21.500

0 投票

1 回答

66 浏览

azure - 无法使用 azure devops CI 管道创建 azure 计算实例

下面是我得到的错误

错误：{'Azure-cli-ml 版本'：'1.27.0'，'错误'：AuthenticationException：

消息：无法检索用户令牌。请运行“az 登录”

InnerException 请运行“az login”来设置帐户。

错误响应

{

“错误”： {

“代码”：“用户错误”，

“内部错误”：{

“代码”：“身份验证”

},

"message": "无法检索用户令牌。请运行 'az login'"

}

}}

azure azure-devops continuous-integration azure-cli mlops

2021-05-10T15:24:28.747

0 投票

1 回答

85 浏览

python - MLFlow 运行：在文件中传递参数而不是键/值对

通常在运行 MLProject 时，我会使用类似于：

是否可以传递包含键/值对的文件？所以像：

其中 ./parameters 包含键/值对（如 env 文件或其他内容）

我想到的一种方法是制作一个单独的 bash 脚本，该脚本接受文件并提取要包含在运行命令中的键/值对，但我想知道是否有一种更原生于 mlflow 的方法。

python machine-learning mlflow mlops

2021-05-24T19:18:08.327

0 投票

1 回答

128 浏览

data-science - AWS Sagemaker + Quicksight 上的机器学习模型作为前端

假设我有一个训练有素的模型进入 Sagemaker。它不是 AWS 预构建模型。用户将访问此模型，用户将输入数据传递到其推理服务器端点，结果必须显示在仪表板中。

第一个问题：Quicksight 作为前端有用吗？是否可以创建由用户填写的字段？我知道像 Tableau 这样的一些 BI 工具不允许用户插入新数据。Quicksight允许吗？

第二个问题：一些允许这样做的 BI 工具？或者这个特殊情况没有被任何覆盖？我是否需要进行前端开发，例如 Flask？

data-science dashboard amazon-sagemaker amazon-quicksight mlops

2021-05-26T21:46:15.813

0 投票

0 回答

25 浏览

azure - 使用代码自动创建 azure ci/cd 管道

如果我有 10 个机器学习模型并且我希望它们使用 Azure CI/CD 进行设置，我可以自动创建 10 个相应的管道还是必须一个一个地创建 10 个？

azure devops cicd mlops

2021-06-12T04:24:35.350

0 投票

0 回答

257 浏览

python - 错误：无法重现“dvc.yaml”：无法运行：python src/train_and_evaluate.py --config=params.yaml，以 1 退出

mlflow.exceptions.RestException：INVALID_PARAMETER_VALUE：模型注册表功能不可用；模型注册表数据存储的 URI './mlruns' 不受支持。支持的 URI 方案有：['postgresql', 'mysql', 'sqlite', 'mssql']。有关如何针对支持的后端存储位置之一运行 MLflow 服务器，请参阅https://www.mlflow.org/docs/latest/tracking.html#storage 。错误：无法重现“dvc.yaml”：无法运行：python src/train_and_evaluate.py --config=params.yaml，以 1 退出

在 MLOPs UI 模型未注册收到错误消息：INVALID_PARAMETER_VALUE：模型注册功能不可用；模型注册表数据存储的 URI './mlruns' 不受支持。支持的 URI 方案有：['postgresql', 'mysql', 'sqlite', 'mssql']。有关如何针对支持的后端存储位置之一运行 MLflow 服务器，请参阅https://www.mlflow.org/docs/latest/tracking.html#storage 。

python python-3.x sqlite mlops

2021-07-01T06:42:00.957

0 投票

1 回答

60 浏览

machine-learning - 无服务器机器学习：应该在哪里存储他们的模型？

我正在部署一个使用 BERT 制作的无服务器 NLP 应用程序。我目前正在使用无服务器框架和 AWS ECR 来克服 250 MB 的 AWS Lambda 部署包限制（PyTorch 已经占用了超过该空间）。

我对这个解决方案非常满意，因为它让我可以简单地对我的应用程序进行 docker 化，将其上传到 ECR，而无需担心其他任何事情。

我的一个疑问是我应该在哪里存储模型。我的应用程序使用 3 个不同的保存模型，每个模型的大小为 422 MB。我有两个选择：

将我的模型复制到 docker 映像本身中。
- 优点：如果我重新训练我的模型，它将在我重新部署应用程序时自动更新，并且我不必使用 AWS 开发工具包从 S3 加载对象
- 缺点：Docker 镜像非常大
将我的模型存储在 S3 中：
- 优点：图像大小比其他解决方案小（1+ GB vs 3+ GB）
- 缺点：如果我重新训练我的模型，我需要在 S3 上手动更新它们，因为它们与应用程序部署管道分离。我还需要使用 AWS SDK 从 S3 加载它们（可能会增加一些开销？）。

所以我的问题最终是：在这两种解决方案中，哪一种是最佳实践？为什么，为什么不呢？是否有最佳实践，还是基于偏好/需要？

machine-learning aws-lambda serverless amazon-ecr mlops

2021-07-03T15:59:03.813

问题标签 [mlops]

Reference