问题标签 [mlops]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - Tensorflow Extended:是否可以在 Tensorflow 扩展流中使用 pytorch 训练循环
我已经使用 pytorch 训练了一个图像分类模型。
现在,我想把它从研究转移到生产管道。
我正在考虑使用 TensorFlow 扩展。我非常怀疑我是否能够在 TensorFlow 扩展管道中使用我的 PyTorch 训练模型(我可以将训练模型转换为 ONNX,然后转换为 Tensorflow 兼容格式)。我不想重写和重新训练 TensorFlow 的训练部分,因为这将是一个很大的开销。是否有可能或有没有更好的方法来生产 PyTorch 训练的模型?
amazon-sagemaker - 如何在 SageMaker 管道中创建超参数调整步骤?
我正在尝试使用最新的 SageMaker Python SDK (v2.23.0) 来实现包含超参数调整作业的 SageMaker 管道。但是,我在模块 sagemaker.workflow.steps 或 sagemaker.workflow.step_collections 中没有看到任何我可以使用的东西。有一个 TrainingStep 课程,但它不适用于 HPO。
目前不支持吗?
python - 使用 mlflow 为自定义 python 模型提供评分
我正在使用从带有 mlflow 的 ml 软件生成的 Python 代码来读取数据帧,执行一些表操作并输出数据帧。我能够成功运行代码并将新数据框保存为工件。但是我无法使用 log_model 记录模型,因为它不是我们训练和拟合的 lr 或分类器模型。我想为此记录一个模型,以便它可以提供新数据并使用休息 API 进行部署
google-cloud-platform - GCP 上的 Pytorch:机器类型在此端点上不可用
我是 GCP 的新手,所以请原谅这里可能会询问/遗漏一些明显的东西。
我正在尝试使用自定义 pytorch 模型在 GCP 上部署和创建版本资源。在我尝试创建模型的新版本之前,一切都运行良好。然后我不断收到: INVALID_ARGUMENT:机器类型在此端点上不可用。
我试过在他们的列表中切换不同类型,但没有运气。我错过了什么?
这是我运行部署的脚本:
谢谢!
azure - 无法使用 azure devops CI 管道创建 azure 计算实例
下面是我得到的错误
错误:{'Azure-cli-ml 版本':'1.27.0','错误':AuthenticationException:
消息:无法检索用户令牌。请运行“az 登录”
InnerException 请运行“az login”来设置帐户。
错误响应
{
“错误”: {
“代码”:“用户错误”,
“内部错误”:{
“代码”:“身份验证”
},
"message": "无法检索用户令牌。请运行 'az login'"
}
}}
python - MLFlow 运行:在文件中传递参数而不是键/值对
通常在运行 MLProject 时,我会使用类似于:
是否可以传递包含键/值对的文件?所以像:
其中 ./parameters 包含键/值对(如 env 文件或其他内容)
我想到的一种方法是制作一个单独的 bash 脚本,该脚本接受文件并提取要包含在运行命令中的键/值对,但我想知道是否有一种更原生于 mlflow 的方法。
data-science - AWS Sagemaker + Quicksight 上的机器学习模型作为前端
假设我有一个训练有素的模型进入 Sagemaker。它不是 AWS 预构建模型。用户将访问此模型,用户将输入数据传递到其推理服务器端点,结果必须显示在仪表板中。
第一个问题:Quicksight 作为前端有用吗?是否可以创建由用户填写的字段?我知道像 Tableau 这样的一些 BI 工具不允许用户插入新数据。Quicksight允许吗?
第二个问题:一些允许这样做的 BI 工具?或者这个特殊情况没有被任何覆盖?我是否需要进行前端开发,例如 Flask?
azure - 使用代码自动创建 azure ci/cd 管道
如果我有 10 个机器学习模型并且我希望它们使用 Azure CI/CD 进行设置,我可以自动创建 10 个相应的管道还是必须一个一个地创建 10 个?
python - 错误:无法重现“dvc.yaml”:无法运行:python src/train_and_evaluate.py --config=params.yaml,以 1 退出
mlflow.exceptions.RestException:INVALID_PARAMETER_VALUE:模型注册表功能不可用;模型注册表数据存储的 URI './mlruns' 不受支持。支持的 URI 方案有:['postgresql', 'mysql', 'sqlite', 'mssql']。有关如何针对支持的后端存储位置之一运行 MLflow 服务器,请参阅https://www.mlflow.org/docs/latest/tracking.html#storage 。错误:无法重现“dvc.yaml”:无法运行:python src/train_and_evaluate.py --config=params.yaml,以 1 退出
在 MLOPs UI 模型未注册收到错误消息:INVALID_PARAMETER_VALUE:模型注册功能不可用;模型注册表数据存储的 URI './mlruns' 不受支持。支持的 URI 方案有:['postgresql', 'mysql', 'sqlite', 'mssql']。有关如何针对支持的后端存储位置之一运行 MLflow 服务器,请参阅https://www.mlflow.org/docs/latest/tracking.html#storage 。
machine-learning - 无服务器机器学习:应该在哪里存储他们的模型?
我正在部署一个使用 BERT 制作的无服务器 NLP 应用程序。我目前正在使用无服务器框架和 AWS ECR 来克服 250 MB 的 AWS Lambda 部署包限制(PyTorch 已经占用了超过该空间)。
我对这个解决方案非常满意,因为它让我可以简单地对我的应用程序进行 docker 化,将其上传到 ECR,而无需担心其他任何事情。
我的一个疑问是我应该在哪里存储模型。我的应用程序使用 3 个不同的保存模型,每个模型的大小为 422 MB。我有两个选择:
将我的模型复制到 docker 映像本身中。
- 优点:如果我重新训练我的模型,它将在我重新部署应用程序时自动更新,并且我不必使用 AWS 开发工具包从 S3 加载对象
- 缺点:Docker 镜像非常大
将我的模型存储在 S3 中:
- 优点:图像大小比其他解决方案小(1+ GB vs 3+ GB)
- 缺点:如果我重新训练我的模型,我需要在 S3 上手动更新它们,因为它们与应用程序部署管道分离。我还需要使用 AWS SDK 从 S3 加载它们(可能会增加一些开销?)。
所以我的问题最终是:在这两种解决方案中,哪一种是最佳实践?为什么,为什么不呢?是否有最佳实践,还是基于偏好/需要?