问题标签 [azure-machine-learning-service]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 Azure Container Regisrty 上使用自定义 Docker 映像部署 Azure 机器学习模型
我想使用Azure 机器学习服务在 Azure 上训练Azure 机器学习模型。但我想使用自定义 Docker 映像在 azure 上部署模型。我无法理解如何使用自定义 Docker 映像部署机器学习模型。
如果有任何关于使用自定义图像部署 ml 模型的教程或博客,请与我分享。
请检查以下 Docker 文件命令:-
我想使用Azure Container Registry推送 Docker 映像并使用自定义 Docker 映像。请让我知道是否有任何方法。
有什么方法可以使用自定义 docker 映像部署 Azure ML 模型?
azure-machine-learning-service - 如何使用 CLI 或 SDK 在 Azure 机器学习服务中注册 900mb 的本地模型
我有一个 900mb 型号和一个 9mb 型号。
我正在使用最新版本的 Azure ML CLI 使用以下命令在我的工作区中注册它:
9mb 文件成功上传,但 900mb 文件超时并出现以下错误:
UI 的超时阈值更低。
我对解决这个问题的想法:
- 我需要将模型上传到 blob 存储并从云而不是本地访问它。我检查了Model Register方法,它有一个--asset-path属性,但是这是一个实验(我没有用 AML 进行实验——数据科学家正在他自己的工作流程中做这些实验,并将模型传递给我部署)。
- DataStore 看起来很有希望,我可以将我的模型安装在一个 blob 上(在使用 Storage Explorer 上传它之后)并访问它 - 但是我似乎无法使用 CLI 执行此操作。Python SDK 确实具有数据集属性但没有数据存储属性,并且Register 方法似乎没有云选项。
所以我的问题是:如何在 Azure ML 中注册大型模型?
azure-machine-learning-service - 作业提交失败:CondaHTTPError: HTTP 000 CONNECTION FAILED
我正在尝试使用代表https://github.com/microsoft/MLAKSDeployAML/使用 AKS 部署 AML 服务。
在一台 NC6_v2 DSVM 机器上创建了这个,在努力让 conda 工作之后,我终于得到了我的环境设置并开始运行笔记本。
我提交了实验,然后等待 run.wait_for_completion(show_output=True) 并出现 HTTP 错误。完整的控制日志附在下面。
这可能与作为 GPU 机器有关,还是该服务还有其他问题?
azure - 部署在 ACI 或 AKS 上的 AMLS 模型的服务超时 1 分钟
我们在机器学习服务上创建了一个图像评分模型,并使用 ACI 和 AKS 上的 AMLS 门户进行了部署。虽然它在较小的图像上运行,但对于较大的图像,它会在 ACI 和 AKS 上恰好 1 分钟后超时。预计图像评分可能需要几分钟。
想知道,如果是使用 AMLS 部署的限制,还是在 ACI 和 AKS 上,它们会在 60 秒后超时部署的 Web 服务?欢迎任何解决方法
ACI 错误:- 发布http://localhost:5001/score:net/http:请求已取消(等待标头时超出 Client.Timeout)
AKS 错误:- 回复前副本已关闭连接
azure - 在没有 python sdk 的情况下从外部调用 azure 机器学习服务管道
我已经发布了在 azure 机器学习服务工作区中创建的管道,并且我有它的休息端点。我还有服务主体 ID 和机密,它们可以对工作区进行贡献者访问。我正在尝试使用 SPn id 和秘密从 adf 调用此管道通过其休息端点。但是我遇到了禁止错误,是否有指南如何在不使用 python SDK 的情况下对其进行分割。
azure - 如何获取使用 Rest Api 运行的 Azure 机器学习服务管道的状态?
我创建了一个 Azure 机器学习服务管道,我正在使用它的 rest 端点在外部调用它。但我还需要定期监控它的运行,无论它是完成还是失败。 机器学习管道的休息端点内是否有一种方法,我可以点击它来检查它的运行状态? 我已经尝试了此处链接中提到的步骤 https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/pipeline-batch-scoring/pipeline-batch-评分.ipynb
docker - 如何将 Azure ML 上的 GPU 与 NVIDIA CUDA 自定义 docker 基础映像一起使用?
在我构建自定义 docker 基础镜像的 dockerfile 中,我指定了以下基础镜像:
nvidia-cuda基础镜像对应的dockerfile在这里找到:https ://gitlab.com/nvidia/container-images/cuda/blob/master/dist/ubuntu16.04/10.1/devel/cudnn7/Dockerfile
现在当我打印 AzureML 日志时:
我明白了
但我想要一个 GPU 而不是 CPU。我究竟做错了什么?
编辑:我不知道你到底需要什么。但我可以给你以下信息:azureml.core VERSION 是 1.0.57。compute_target 通过以下方式定义:
实验通过以下方式运行:
yaml 文件包含:
编辑 2:我尝试use_gpu = True
以及升级到azureml-sdk=1.0.65
但无济于事。有些人建议通过 额外安装 cuda-drivers apt-get install cuda-drivers
,但这不起作用,我无法用它构建 docker 映像。nvcc --version
泊坞窗图像上的输出产生:
所以我认为应该没问题 docker镜像本身当然没有GPU,所以nvidia-smi
找不到命令并且
接着
将打印 False。
azure-machine-learning-service - POST 请求失败,大数据发送到部署在 Azure 容器上的模型
概括
我通过 Azure 机器学习服务 SDK 在 Azure 容器实例上部署了一个 PyTorch 模型。该模型采用(大)图像以标准 numpy 格式进行分类。
看来,我在服务器端达到了 HTTP 请求大小限制。对模型的请求对大小在 8-9mb 范围内的 PNG 图像成功,对 15mb+ 大小的图像失败。具体来说,它因 413 Request Entity Too Large 而失败。
我假设,作为部署过程的一部分,限制是在正在构建的 Docker 映像中的 Nginx 中设置的。我的问题:鉴于问题是由于 HTTP 请求大小限制,有没有办法在 azureml API 中增加这个限制?
部署过程
部署过程按预期成功。
通过测试requests
使用请求的简单测试:
requests
对于较大的文件会产生以下错误:
我猜这是请求中的一个已知错误,当在数据上传完成之前从服务器关闭连接时。
通过测试pycurl
使用 curl 包装器,我得到了更可解释的响应。
对于大文件,这会产生以下错误:
让我相信这是 Nginx 配置中的一个问题。具体来说,我猜 client_max_body_size 设置为 10mb。
问题总结
鉴于我确实遇到了 Nginx 配置的问题,我可以以某种方式更改它吗?如果不使用 Azure 机器学习服务 SDK,那么可能通过覆盖/etc/nginx/nginx.conf
文件?
azure-machine-learning-service - 使用带有动态 numpy 数组形状的 inference_schema.schema_decorators
问题摘要
我正在使用 Azure 机器学习服务 API 将模型部署到 Azure 容器实例。具体来说,该模型是对不同形状的图像进行分类的 PyTorch (fastai) 模型。
Microsoft 提供了一些不错的装饰器来处理评分脚本中的输入和输出数据模式。但是,我无法弄清楚是否可以使用NumpyParameterType
带有动态形状的输入。
评分脚本
评分脚本示例:
仅当上传的图像具有与“src/deployment/test/test_image.png”完全相同的形状时才有效。现在我的解决方案是避免使用装饰器并自己进行数据解释。
但是能够使用装饰器会很好,这样最终用户也可以从漂亮的警告消息中受益。
python-3.x - 在 MPI azure ml 管道中运行 MPI python 脚本
我正在尝试通过使用 MPIStep 管道类的 azure ML 管道运行分布式 python 作业,方法是参考以下示例链接 - https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/机器学习管道/管道样式传输/管道样式传输.ipynb
我尝试实现相同但即使我更改了 MpiStep 类中的节点计数参数,在运行脚本时它总是显示大小(即 comm.Get_size())为 1。你能帮我解决我在这里缺少的东西吗?集群上是否需要任何特定设置?
代码片段:
管道代码片段:
Python 脚本代码片段: