问题标签 [mlops]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
comet - How does autologging work in MLOps platforms like Comet or MLFlow?
I was wondering how the implementation of logging is done where you just need to create an experiment object from comet_ml and it auto-detects and gives out all the statistics of the trained experiment. Is there some sort of logging system used?
python - MLflow 是否允许从 S3 等远程位置记录工件?
我的设置
我为 ML 实验开发了一个环境,如下所示:使用 SageMaker 训练作业在 AWS 云中进行训练。训练后的模型存储在/opt/ml/model
目录中,该目录由 SageMaker 保留,用于将模型打包为.tar.gz
SageMaker 自己的 S3 存储桶中。在训练和测试期间计算几个评估指标,并记录到由基于 S3 的工件存储组成的 MLflow 基础架构(参见场景 4)。请注意,这是与 SageMaker 不同的 S3 存储桶。
MLflow 的一个非常有用的功能是任何模型工件都可以记录到训练运行中,因此数据科学家可以通过 UI 访问指标和更复杂的输出。这些输出包括(但不限于)训练模型本身。
一个限制是,据我了解,用于记录工件的 MLflow API仅接受工件本身的本地路径作为输入,并将始终将其上传到其工件存储。当工件存储在 MLflow 之外的某个地方时,这是次优的,因为您必须将它们存储两次。一个变压器模型的重量可能超过 1GB。
我的问题
- 有没有办法将 S3 路径传递给 MLflow 并将其视为工件,而无需先在本地下载它?
- 有没有办法避免将工件的副本推送到工件商店?如果我的工件已经位于另一个远程位置,那么理想的做法是在 MLflow 中仅具有指向该位置的链接,而不是 MLflow 存储中的副本。
azure - 具有动态模型的 Azure ML 静态终结点
是否可以在 Azure ML 上部署具有最新模型的终结点?因此,我在 Azure DevOps 上有一个 CICD 管道,它将使用最新模型生成和评估新模型,并将注册一个更好的模型。但是,问题是当我尝试部署端点时,它只能附加特定模型,而不是最佳模型。所以,如果我想部署一个新的,它将生成一个新的端点链接。
所以我的问题是,是否可以在不更改其 URL REST 端点的情况下部署具有最新模型的端点?
amazon-web-services - 如何从前端应用程序(通过 api 网关后调用)触发 AWS Sagemaker 培训作业?
我在 AWS Sagemaker 上完成了一项培训工作,它运行良好 - 从 s3 位置读取并按照 s3 中的预期存储模型检查点。现在,我需要从网站(通过 API 网关)使用指定的参数(例如具有数据的 s3 位置)触发此触发作业。第一个想法是制作一个从 API 调用中调用的 lambda 函数,并使用 Sagemaker API 训练作业:
但是,AWS lambda 的最大运行时间为 15 分钟,少于所需的训练时间。我想知道是否有无服务器的方式来做同样的事情?AWS step 函数在这方面与 lambda 有什么不同吗?
python - 尝试将我的火炬模型转换为火炬脚本时出现此错误
我对 torchscript 和 JIT 比较陌生,并且收到此错误:
这是我的转发函数,它采用 args 和 kwargs 参数。任何人都可以帮助我在没有错误的情况下传递这些论点
amazon-web-services - 如何将 ECS 集群的 CpuUtilization 指标的分辨率提高 1 分钟以上?
我正在尝试为我的 ECS 集群创建一个强大的自动缩放过程,但在解决 CpuUtilization 指标时遇到了问题。我已打开 1 分钟分辨率的“详细指标”,但无法获得良好的缩放结果。我正在部署一个大约需要 1.5 秒来推断的 ML 模型。我没有面临任何内存瓶颈,因此,我使用 CpuUtilization 进行扩展。
我需要快速扩展,因为当请求开始堆积时,响应时间很容易达到 3-5 秒。目前,启用了“详细指标”。扩展时间大约需要 3-5 分钟才能开始,因为要检查 3 个数据点的 1 分钟资源指标。如果我有 5-10 秒的分辨率指标,那么我可以在 30 秒内查看 6 个数据点并更快地开始横向扩展工作。
我尝试使用此博客中的 Lambda、StepFunctions 和 EventBridge 。但是,我无法获得 CpuUtilization 或 MemoryUtilization,只有任务、服务和容器计数。
有没有办法直接从 ECS 获取 Cpu 和内存指标?我知道我们可以使用cloudwatch.get_metric_statistics()。但是,我们只能获取报告给 CloudWatch 的数据点。所以,没用。
docker - 在 EC2 上通过 docker 部署多个拥抱脸模型
我已经使用 EC2 上的 docker 容器部署了 NER 模型。生成的 docker 镜像占用了 3GB 的所有依赖项。我有几个关于部署多个 ML 模型的问题。
- 我是否需要为每个应用程序创建一个映像并使用 Kubernetes 进行编排?
- 如果是这样,有没有办法让所有应用程序都具有全局环境依赖关系。我认为为每个应用程序创建 2GB 的 docker 镜像是一种低效的方法。
- 在这种情况下遵循哪些常见做法?
amazon-sagemaker - 我们如何使用 aws cloudformation 创建 sagemaker 管道
我曾尝试AWS::SageMaker::Pipeline
在云形成中使用资源。
我想以json
云形成的格式给出管道定义。但是没有任何可用的文档。有仅用于 python sdk 管道定义的文档。
有人可以在这里帮忙。使用 cloudformation创建MLOPS Sagemaker管道
python - 本地 MLOps 管道堆栈
我的动机是构建一个 100% 独立于 AWS、GCP 和 Azure 等云服务的 MLOps 管道。我在生产工厂有一个客户项目,想为他们构建一个基于相机的对象跟踪 ML 服务。我想在我自己的服务器或(本地计算机)中构建这个管道。我真的很困惑我应该使用什么堆栈。我一直以基于云组件的解决方案而告终。就我可以使用哪些组件并且最好是开源的获得一些建议会很棒。