“mlops”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

24 浏览

comet - How does autologging work in MLOps platforms like Comet or MLFlow?

I was wondering how the implementation of logging is done where you just need to create an experiment object from comet_ml and it auto-detects and gives out all the statistics of the trained experiment. Is there some sort of logging system used?

2022-01-03T09:14:21.397

0 投票

0 回答

73 浏览

python - MLflow 是否允许从 S3 等远程位置记录工件？

我的设置

我为 ML 实验开发了一个环境，如下所示：使用 SageMaker 训练作业在 AWS 云中进行训练。训练后的模型存储在/opt/ml/model目录中，该目录由 SageMaker 保留，用于将模型打包为.tar.gzSageMaker 自己的 S3 存储桶中。在训练和测试期间计算几个评估指标，并记录到由基于 S3 的工件存储组成的 MLflow 基础架构（参见场景 4）。请注意，这是与 SageMaker 不同的 S3 存储桶。

MLflow 的一个非常有用的功能是任何模型工件都可以记录到训练运行中，因此数据科学家可以通过 UI 访问指标和更复杂的输出。这些输出包括（但不限于）训练模型本身。

一个限制是，据我了解，用于记录工件的 MLflow API仅接受工件本身的本地路径作为输入，并将始终将其上传到其工件存储。当工件存储在 MLflow 之外的某个地方时，这是次优的，因为您必须将它们存储两次。一个变压器模型的重量可能超过 1GB。

我的问题

有没有办法将 S3 路径传递给 MLflow 并将其视为工件，而无需先在本地下载它？
有没有办法避免将工件的副本推送到工件商店？如果我的工件已经位于另一个远程位置，那么理想的做法是在 MLflow 中仅具有指向该位置的链接，而不是 MLflow 存储中的副本。

python amazon-s3 amazon-sagemaker mlflow mlops

2022-01-12T10:49:12.913

0 投票

1 回答

41 浏览

azure - 具有动态模型的 Azure ML 静态终结点

是否可以在 Azure ML 上部署具有最新模型的终结点？因此，我在 Azure DevOps 上有一个 CICD 管道，它将使用最新模型生成和评估新模型，并将注册一个更好的模型。但是，问题是当我尝试部署端点时，它只能附加特定模型，而不是最佳模型。所以，如果我想部署一个新的，它将生成一个新的端点链接。

所以我的问题是，是否可以在不更改其 URL REST 端点的情况下部署具有最新模型的端点？

azure azure-devops azure-machine-learning-studio azure-machine-learning-service mlops

2022-01-18T05:46:52.980

0 投票

0 回答

47 浏览

google-cloud-platform - 使用 VertexAI 管道和 Kuberflow 组件自动化批量预测

下面的代码加载一个已经在 VertexAI 中训练的模型，并运行一个用于批量预测的管道。但是，我收到一个 json 解码器错误，我无法弄清楚它来自哪里。输入文件是 jsonl 格式，如果我从 VertexAI 仪表板手动运行批量预测，它可以正常工作。因此，我的管道中有一些我看不到的问题。

有什么帮助吗？

我得到的错误

模型也正确加载。批量预测阶段失败

google-cloud-platform google-cloud-vertex-ai mlops

2022-01-28T11:55:20.617

0 投票

1 回答

37 浏览

amazon-web-services - 如何从前端应用程序（通过 api 网关后调用）触发 AWS Sagemaker 培训作业？

我在 AWS Sagemaker 上完成了一项培训工作，它运行良好 - 从 s3 位置读取并按照 s3 中的预期存储模型检查点。现在，我需要从网站（通过 API 网关）使用指定的参数（例如具有数据的 s3 位置）触发此触发作业。第一个想法是制作一个从 API 调用中调用的 lambda 函数，并使用 Sagemaker API 训练作业：

但是，AWS lambda 的最大运行时间为 15 分钟，少于所需的训练时间。我想知道是否有无服务器的方式来做同样的事情？AWS step 函数在这方面与 lambda 有什么不同吗？

amazon-web-services aws-lambda amazon-sagemaker huggingface-transformers mlops

2022-01-30T02:27:49.630

0 投票

0 回答

36 浏览

python - 尝试将我的火炬模型转换为火炬脚本时出现此错误

我对 torchscript 和 JIT 比较陌生，并且收到此错误：

这是我的转发函数，它采用 args 和 kwargs 参数。任何人都可以帮助我在没有错误的情况下传递这些论点

python pytorch jit mlops torchscript

2022-01-30T15:36:29.337

0 投票

1 回答

16 浏览

amazon-web-services - 如何将 ECS 集群的 CpuUtilization 指标的分辨率提高 1 分钟以上？

我正在尝试为我的 ECS 集群创建一个强大的自动缩放过程，但在解决 CpuUtilization 指标时遇到了问题。我已打开 1 分钟分辨率的“详细指标”，但无法获得良好的缩放结果。我正在部署一个大约需要 1.5 秒来推断的 ML 模型。我没有面临任何内存瓶颈，因此，我使用 CpuUtilization 进行扩展。

我需要快速扩展，因为当请求开始堆积时，响应时间很容易达到 3-5 秒。目前，启用了“详细指标”。扩展时间大约需要 3-5 分钟才能开始，因为要检查 3 个数据点的 1 分钟资源指标。如果我有 5-10 秒的分辨率指标，那么我可以在 30 秒内查看 6 个数据点并更快地开始横向扩展工作。

我尝试使用此博客中的 Lambda、StepFunctions 和 EventBridge 。但是，我无法获得 CpuUtilization 或 MemoryUtilization，只有任务、服务和容器计数。

有没有办法直接从 ECS 获取 Cpu 和内存指标？我知道我们可以使用cloudwatch.get_metric_statistics()。但是，我们只能获取报告给 CloudWatch 的数据点。所以，没用。

amazon-web-services amazon-ecs amazon-cloudwatch mlops

2022-02-15T06:12:46.290

0 投票

0 回答

9 浏览

docker - 在 EC2 上通过 docker 部署多个拥抱脸模型

我已经使用 EC2 上的 docker 容器部署了 NER 模型。生成的 docker 镜像占用了 3GB 的所有依赖项。我有几个关于部署多个 ML 模型的问题。

我是否需要为每个应用程序创建一个映像并使用 Kubernetes 进行编排？
如果是这样，有没有办法让所有应用程序都具有全局环境依赖关系。我认为为每个应用程序创建 2GB 的 docker 镜像是一种低效的方法。
在这种情况下遵循哪些常见做法？

docker amazon-ec2 huggingface-transformers mlops

2022-02-19T17:30:37.237

0 投票

1 回答

29 浏览

amazon-sagemaker - 我们如何使用 aws cloudformation 创建 sagemaker 管道

我曾尝试AWS::SageMaker::Pipeline在云形成中使用资源。

我想以json云形成的格式给出管道定义。但是没有任何可用的文档。有仅用于 python sdk 管道定义的文档。

有人可以在这里帮忙。使用 cloudformation创建MLOPS Sagemaker管道

amazon-sagemaker mlops

2022-02-23T10:26:46.177

0 投票

0 回答

10 浏览

python - 本地 MLOps 管道堆栈

我的动机是构建一个 100% 独立于 AWS、GCP 和 Azure 等云服务的 MLOps 管道。我在生产工厂有一个客户项目，想为他们构建一个基于相机的对象跟踪 ML 服务。我想在我自己的服务器或（本地计算机）中构建这个管道。我真的很困惑我应该使用什么堆栈。我一直以基于云组件的解决方案而告终。就我可以使用哪些组件并且最好是开源的获得一些建议会很棒。

python computer-vision pipeline object-detection mlops

2022-02-26T11:35:58.833

问题标签 [mlops]

我的设置

我的问题

Reference