问题标签 [azure-machine-learning-service]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure-machine-learning-service - Torchvision 0.3.0 用于在 AML 服务上训练模型
我正在构建一个图像来训练 AML 服务,试图在该图像上安装 torchvision==0.3.0。我正在使用的笔记本 VM 具有 torchvision 0.3.0 和 pytorch 1.1.0,它允许我做我想做的事情……但仅限于笔记本 VM。当我将作业提交给 AML 时,我收到一个错误:
发生错误:模块“torchvision.models”没有属性“googlenet”
我已经设法在图像创建时捕获日志。这是摘录的一部分,部分显示了正在发生的事情:
无需过多介绍,这里是我用来创建估算器的代码,然后提交作业。没有什么特别花哨的。
我尝试调试图像创建过程(查看日志),这就是我捕获上面显示的内容的地方。我还尝试使用 python 调试器连接到正在运行的进程,和/或登录到正在运行的 docker 容器内的 bash 以尝试使用 python 交互来查看我的问题。最初的问题是我不能使用它,torchvision.models.googlenet
因为它没有在使用的版本中计算出来。
我用这个创建我的估算器:
并使用典型代码提交。
鉴于我在依赖项中指定了 0.3.0,我希望它能够正常工作。
想法?
azure-machine-learning-service - 如何获取 azureml 基础映像的 Docker 映像标记信息?
我目前正在使用mcr.microsoft.com/azureml/base:latest docker映像。
要访问mcr.microsoft.com/azureml/base中的所有标签列表,我 根据此处的说明向http://mcr.microsoft.com/v2/azureml/base/tags/list发出 GET 请求,以及我看是。
我看到有不同的版本标签(请在下面查看),但是我想知道编号标签的含义,它们是否受支持以及所有标签的更新频率。
谢谢!
azure-devops - 从 az ml cli 运行 id
如何将实验的运行 ID 作为模型的标签信息传递?
我想在 Azure DevOps 构建管道中的 az ml cli 中运行实验并使用标记信息注册模型,并使用实验的运行 ID。
运行实验 az ml 运行提交脚本 -e 测试 -d myenv.yml train.py
模型寄存器 az ml 模型寄存器 -n mymodel -p sklearn_regression_model.pkl --tag "run id"= ????
我不知道如何从 az ml cli 的实验运行中获取运行 ID 并将其传递给 --tag 参数。任何想法 ?
python - 如何在 Azure ML 服务计算集群上并行工作?
我能够使用计算集群向 Azure ML 服务提交作业。它运行良好,自动缩放与自定义环境的良好灵活性相结合似乎正是我所需要的。然而,到目前为止,所有这些作业似乎只使用集群的一个计算节点。理想情况下,我想使用多个节点进行计算,但我看到的所有方法都依赖于与 azure ML 服务的深度集成。
我的建模案例有点不典型。从之前的实验中,我确定了一组运行良好的架构(预处理步骤的管道 + Scikit-learn 中的估计器)。使用RandomizedSearchCV可以相当快(几分钟)对这些估计器之一进行超参数调整。所以并行化这一步似乎不太有效。
现在我想调整和训练整个架构列表。这应该很容易并行化,因为所有架构都可以独立训练。
理想情况下,我想要类似的东西(在伪代码中)
但是,我找不到任何有关如何使用 Azure ML Compute 集群实现此目的的资源。一个可接受的替代方案是以即插即用替代 sklearn 的 CV 调整方法的形式出现,类似于dask或spark中提供的方法。
python - 使用 base_dockerfile 代替 base_image 时实验失败
我正在尝试使用自定义 docker 映像向 Azure 机器学习服务提交实验。当我提供 docker 映像时一切正常,但如果我选择提供 dockerfile 则会失败。
DockerSection 对象中 base_dockerfile 的使用在此处记录,并在 sdk 的 v1.0.53 中添加(如此处所述)
示例代码:
其余代码与使用注册表中的预定义映像运行时相同(例如,在上述代码中设置 base_image)。
来自 ML 服务的示例错误是:
raise ActivityFailedException(error_details=json.dumps(error, indent=4)) azureml.exceptions._azureml_exception.ActivityFailedException: ActivityFailedException: 消息: 活动失败: { "error": { "code": "ServiceError", "message": " InternalServerError", "details": [] }, "correlation": { "operation": null, "request": "K/C4FSnEz74=" }, "environment": "southcentralus", "location": "southcentralus", "time": "2019-08-20T16:33:17.130928Z" } InnerException 无 ErrorResponse {"error": {"message": "Activity Failed:\n{\n \"error\": {\n \"code\": \"ServiceError\",\n
\"message\": \"InternalServerError\",\n \"details\": []\n
},\n \"相关\": {\n \"操作\": null,\n
\"请求\": \"K/C4FSnEz74=\"\n },\n \"环境\": \ "southcentralus\",\n \"位置\": \"southcentralus\",\n
\"时间\": \"2019-08-20T16:33:17.130928Z\"\n}"}}
我在上面的代码中使用了一个示例 dockerfile(取自 SDK 文档),但是如果我使用创建在注册表中可以正常工作的基本映像的 dockerfile,则会出现相同的错误。
任何想法 - 或指向实际有效的样本的指针 - 都非常感谢!
azure - 对 ML Web 服务的基于 Azure Kubernetes 令牌的身份验证
我能够使用 AML 服务将 ML 模型部署到 Azure Kubernetes 服务中。我在将模型部署到 AKS 时启用了令牌身份验证。如文档“ https://docs.microsoft.com/en-us/azure/machine-learning/service/concept-enterprise-security ”中所述,可以通过 2 种身份验证方式(密钥和令牌)来使用 ML 模型 Web 服务,部署在 Azure Kubernetes 服务中。使用 Web 服务。我们必须与服务请求一起提供令牌。但我找不到任何文档如何从 Kubernetes 服务生成/获取令牌。每次从客户端应用程序调用 Azure Kubernetes 服务中运行的模型时,如何获取新令牌。如果您能够提供更多有关这方面的信息,那将是非常有帮助的。
python - Azure ML 包启动的 Tensorboard 无法正常工作
我想访问在训练期间创建并存储在 Azure ML 服务日志中的 tfevent 文件。此 tfevent 文件可以在普通张量板上正确访问和显示,因此文件不会损坏,但是当我使用 Azure ML 的张量板库访问它时,本地张量板上没有任何显示或连接被拒绝。
我首先将它登录到 ./logs/tensorboard,就像 Azure ML 有 ./logs/azureml 但 Azure ML 的模块启动的 tensorboard 说在浏览器上没有像下面这样显示的文件。
所以我认为保存的位置不会被 AML 识别,我将保存位置更改为 ./logs 然后浏览器显示“无法访问此站点。****** 拒绝连接。”
我的 Azure ML Python SDK 版本是 1.0.57
1)我该如何解决这个问题?
2)我应该在哪里保存 tfevent 文件以便 AML 识别它?我在此处的文档中找不到有关它的任何信息。 https://docs.microsoft.com/en-us/python/api/azureml-tensorboard/azureml.tensorboard.tensorboard?view=azure-ml-py
这就是我通过 Azure ML 启动 tensorboard 的方式。
azure-machine-learning-service - 如何从本地部署的 AzureML 容器中公开端口?
我希望能够entry_script.py
在 VSCode 中调试正在运行的脚本。此代码在az ml deploy
使用自己的 docker run 命令创建的容器中运行。这是一个本地部署,所以我使用的部署配置如下所示:
我正在考虑使用ptvsd
来设置 VSCode 服务器,但除了端点本身的 32267 端口之外,我还需要公开/映射 5678 端口。所以我不清楚如何映射额外的暴露端口(通常使用命令中的-p
or-P
标志docker run
)。
当然,我可以EXPOSE
在extra_dockerfile_steps
配置中使用它,但实际上不会将它映射到我可以在 VSCode 中连接/附加到的主机端口。
我试图确定运行命令并可能对其进行修改,但我找不到该运行命令是什么。如果我知道如何运行通过 AzureML 本地部署创建的映像,那么我可以修改这些标志。
最终感觉太老套了——如果有更受支持的方式通过az ml deploy
或通过部署配置,那将是首选。
这是我在 entry_script 开头使用的代码,用于通过以下方式启用附件ptvsd
:
azure-machine-learning-service - 在 AML Compute 上运行 Ludwig:docker 映像无法在 gmpy 上构建
我目前正在尝试创建一个 TensorFlow 估计器,以使用各种 pip 和 conda 包在 Azure ML Compute 上运行 Ludwig 的训练模型,如下所示:
其中一个 pip 包是 gmpy,但它不会安装并抛出error: fatal error: gmp.h: No such file or directory compilation terminated. error: command 'gcc' failed with exit status 1
.
这会阻止 Ludwig 安装并导致无法构建想象
当我在 Ubuntu 上的 python 虚拟环境中本地运行 Ludwig 时,我可以通过运行“sudo apt-get install libgmp3-dev”而不是pip install gmpy
. 当我尝试将 Gmpy2 作为库添加到估算器时,它会引发相同的错误,并且似乎 libgmp3-dev 没有 pip 或 conda 等效项。我尝试将 gmpy 和 gmpy2 .whl 文件直接添加到环境中,但轮文件未被识别为兼容。
是否有某种方法可以添加RUN sudo apt-get install libgmp3-dev
到 dockerfile 中,以便估算器制作的 docker 容器已经安装,而无需创建自定义 dockerfile?我注意到 TensorFlow 估计器类有一个可以采用 DockerSection 的“environment_definition”标志,但我找不到任何关于它们如何工作的示例。
docker - 如何在 Azure ML 管道中正确指定私有 ACR Docker 映像?
我创建了一个私有 Azure 容器注册表,并将一个 docker 映像推送到该注册表。我试图了解在我的管道中访问该注册表的正确方法,我的理解是我需要在运行配置中设置以下信息:
假设我正确提供了用户名和密码。知道为什么这不起作用吗?或者:是否有一个管道笔记本示例使用私有 docker 注册表中的 docker 映像,从而处理这种类型的身份验证问题?