问题标签 [azure-machine-learning-service]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
289 浏览

python - 将 PythonScriptStep 内部的指标记录到父 PipelineRun

开发工具包版本1.0.43

为了最大限度地减少点击和比较PipelineRuns 之间的准确性,我想将一个指标从 a 内部记录PythonScriptStep到 parent PipelineRun。我以为我可以这样做:

但是我收到此错误。

更新

在进一步调查中,我尝试parent使用下面的行打印运行的属性并得到相同的Traceback

print("print run parent attribute", run.parent)

get_properties()方法如下。我猜想 azureml 只是将azureml.pipelinerunid属性用于管道树层次结构,并且该parent属性已留给任何用户定义的层次结构。

0 投票
2 回答
96 浏览

azure-machine-learning-service - 数据集 + 实验运行跟踪

在 Azure ML 工作区的数据集页面中看不到关联的运行

我想看看实验中何时何地使用了数据集。但我看不到它。我试过教程笔记本

输出

详细日志不显示上述任何数据集信息。并且在数据集页面中没有关联的运行

在此处输入图像描述

我想确认我的数据集在实验中使用...

  1. run.get_details()
  2. 工作区数据集页面

有什么解决方法吗?

0 投票
0 回答
96 浏览

azure-machine-learning-service - 数据漂移笔记本的问题

运行此数据漂移示例笔记本时,我在运行特定单元时遇到问题:

这会生成以下回溯:

我相信这个笔记本可能存在版本问题。我正在运行 AzureML SDK 1.0.60,此示例取自笔记本的 1.0.60 版本(至少是截至今天的 master 分支中的那个)

还是我的环境有问题?

我还意识到,通过检查运行的输出日志,我正在对作业本身进行追溯:

这两个不相关,但由同一个笔记本生成。

0 投票
1 回答
372 浏览

tensorflow - P100-NC6s-V2 上的磁盘 I/O 非常慢

我正在 azure ML 管道上训练图像分割模型。在测试步骤中,我将模型的输出保存到关联的 blob 存储中。然后我想找到计算输出和基本事实之间的 IOU(联合交集)。这两组图像都位于 blob 存储上。但是,IOU 计算非常慢,而且我认为它是磁盘绑定的。在我的 IOU 计算代码中,我只是加载了两个图像(注释掉了其他代码),但每次迭代需要将近 6 秒,而训练和测试速度足够快。

这种行为正常吗?如何调试此步骤?

0 投票
0 回答
188 浏览

azure-machine-learning-service - 使用多个 GPU 在 AML 上运行 fairseq 时出现 Unpickling 错误

我正在尝试使用 4 个 GPU (P100) 在 AML 上运行 fairseq 翻译任务,但失败并出现以下错误:

-- 进程 2 因以下错误而终止:Traceback(最近一次调用最后一次):文件“/azureml-envs/azureml_8ef3d311fd9072540e3352d9621cca49/lib/python3.6/site-packages/fairseq/distributed_utils.py”,第 174 行,在 all_gather_list 结果中.append(pickle.loads(bytes(out_buffer[2 : size + 2].tolist()))) _pickle.UnpicklingError: 无效的加载键,'\xad'。

在处理上述异常的过程中,又出现了一个异常:

所以这个错误通常表明工作人员以某种方式失去了同步。如果其中一个工作人员内存不足,或者如果您的训练脚本中有其他条件可能导致一名工作人员完成一个 epoch,而其他工作人员仍在迭代他们的数据部分,则工作人员可能会不同步。

2019-09-18 17:28:44,727|azureml.WorkerPool|调试|[停止]

发生错误:用户程序失败并出现异常:

-- 进程 2 因以下错误而终止:Traceback(最近一次调用最后一次):文件“/azureml-envs/azureml_8ef3d311fd9072540e3352d9621cca49/lib/python3.6/site-packages/fairseq/distributed_utils.py”,第 174 行,在 all_gather_list 结果中.append(pickle.loads(bytes(out_buffer[2 : size + 2].tolist()))) _pickle.UnpicklingError: 无效的加载键,'\xad'。

在处理上述异常的过程中,又出现了一个异常:

所以这个错误通常表明工作人员以某种方式失去了同步。如果其中一个工作人员内存不足,或者如果您的训练脚本中有其他条件可能导致一名工作人员完成一个 epoch,而其他工作人员仍在迭代他们的数据部分,则工作人员可能会不同步。

具有相同参数的相同代码在单个本地 GPU 上运行良好。我该如何解决这个问题?

0 投票
2 回答
1249 浏览

azure-machine-learning-service - ScriptRunConfig 与 AML 上的数据存储参考

尝试运行 ScriptRunConfig 时,使用:

当我提交作业时,它不起作用并中断:

但是,如果我使用 Estimator 运行它,它就可以工作。不同之处之一是ScriptRunConfig我们使用参数列表,而另一个是字典。

感谢您的任何指点!

0 投票
2 回答
116 浏览

azure-machine-learning-service - 如何从 UI 取消正在运行的作业?

我是否遗漏了什么,但如何从https://ms.portal.azure.com/取消我的工作区中的运行?取消按钮始终显示为灰色。

我知道我可以使用 sdk 来取消运行:

但是如果能够从 UI 中进行操作会更方便

0 投票
1 回答
87 浏览

azure-machine-learning-service - AML run.log() 和 run.log_list() 失败且没有错误

我有一个带有 DatabricksSteps 的管道,每个管道都包含:

只是log_image()似乎有效。该图像按预期显示在 AML 实验工作区的“图像”部分,但“跟踪的指标”和“图表”区域为空白。在交互式工作中,run.log()并按run.log_list()预期工作。print()我通过使用而不是测试了参数没有问题run.log()

0 投票
2 回答
892 浏览

python - 使用 python 从 Azure 机器学习服务连接 Azure SQL 数据库时出错

我正在尝试从Azure 机器学习服务连接Azure SQL 数据库,但出现以下错误。

请检查错误:-

请检查我用于数据库连接的以下代码:-

有没有办法解决上述错误?请让我知道是否有任何方法。

0 投票
1 回答
179 浏览

azure-machine-learning-service - 如何使用 azure.mlflow sdk 在 Azure 上部署我的自定义分数文件?

我有一个在 databricks 中生成的自定义 score.py 文件,但我没有找到将其部署到容器上的方法。

我正在使用 mlflow.azureml,在创建图像时我找不到如何特别指定 score.py。

有没有办法使用 lib 指定 score.py?