“azure-machine-learning-service”的相关标签问题

0 投票

3 回答

289 浏览

python - 将 PythonScriptStep 内部的指标记录到父 PipelineRun

开发工具包版本：1.0.43

为了最大限度地减少点击和比较PipelineRuns 之间的准确性，我想将一个指标从 a 内部记录PythonScriptStep到 parent PipelineRun。我以为我可以这样做：

但是我收到此错误。

更新

在进一步调查中，我尝试parent使用下面的行打印运行的属性并得到相同的Traceback

print("print run parent attribute", run.parent)

get_properties()方法如下。我猜想 azureml 只是将azureml.pipelinerunid属性用于管道树层次结构，并且该parent属性已留给任何用户定义的层次结构。

2019-09-12T23:28:57.317

0 投票

2 回答

96 浏览

azure-machine-learning-service - 数据集 + 实验运行跟踪

在 Azure ML 工作区的数据集页面中看不到关联的运行

我想看看实验中何时何地使用了数据集。但我看不到它。我试过教程笔记本。

输出

详细日志不显示上述任何数据集信息。并且在数据集页面中没有关联的运行

在此处输入图像描述

我想确认我的数据集在实验中使用...

run.get_details()
工作区数据集页面

有什么解决方法吗？

azure-machine-learning-service

2019-09-13T10:54:28.783

0 投票

0 回答

96 浏览

azure-machine-learning-service - 数据漂移笔记本的问题

运行此数据漂移示例笔记本时，我在运行特定单元时遇到问题：

这会生成以下回溯：

我相信这个笔记本可能存在版本问题。我正在运行 AzureML SDK 1.0.60，此示例取自笔记本的 1.0.60 版本（至少是截至今天的 master 分支中的那个）

还是我的环境有问题？

我还意识到，通过检查运行的输出日志，我正在对作业本身进行追溯：

这两个不相关，但由同一个笔记本生成。

azure-machine-learning-service

2019-09-16T15:34:13.330

0 投票

1 回答

372 浏览

tensorflow - P100-NC6s-V2 上的磁盘 I/O 非常慢

我正在 azure ML 管道上训练图像分割模型。在测试步骤中，我将模型的输出保存到关联的 blob 存储中。然后我想找到计算输出和基本事实之间的 IOU（联合交集）。这两组图像都位于 blob 存储上。但是，IOU 计算非常慢，而且我认为它是磁盘绑定的。在我的 IOU 计算代码中，我只是加载了两个图像（注释掉了其他代码），但每次迭代需要将近 6 秒，而训练和测试速度足够快。

这种行为正常吗？如何调试此步骤？

tensorflow azure-machine-learning-service

2019-09-17T09:50:01.943

0 投票

0 回答

188 浏览

azure-machine-learning-service - 使用多个 GPU 在 AML 上运行 fairseq 时出现 Unpickling 错误

我正在尝试使用 4 个 GPU (P100) 在 AML 上运行 fairseq 翻译任务，但失败并出现以下错误：

-- 进程 2 因以下错误而终止：Traceback（最近一次调用最后一次）：文件“/azureml-envs/azureml_8ef3d311fd9072540e3352d9621cca49/lib/python3.6/site-packages/fairseq/distributed_utils.py”，第 174 行，在 all_gather_list 结果中.append(pickle.loads(bytes(out_buffer[2 : size + 2].tolist()))) _pickle.UnpicklingError: 无效的加载键，'\xad'。

在处理上述异常的过程中，又出现了一个异常：

所以这个错误通常表明工作人员以某种方式失去了同步。如果其中一个工作人员内存不足，或者如果您的训练脚本中有其他条件可能导致一名工作人员完成一个 epoch，而其他工作人员仍在迭代他们的数据部分，则工作人员可能会不同步。

2019-09-18 17:28:44,727|azureml.WorkerPool|调试|[停止]

发生错误：用户程序失败并出现异常：

-- 进程 2 因以下错误而终止：Traceback（最近一次调用最后一次）：文件“/azureml-envs/azureml_8ef3d311fd9072540e3352d9621cca49/lib/python3.6/site-packages/fairseq/distributed_utils.py”，第 174 行，在 all_gather_list 结果中.append(pickle.loads(bytes(out_buffer[2 : size + 2].tolist()))) _pickle.UnpicklingError: 无效的加载键，'\xad'。

在处理上述异常的过程中，又出现了一个异常：

所以这个错误通常表明工作人员以某种方式失去了同步。如果其中一个工作人员内存不足，或者如果您的训练脚本中有其他条件可能导致一名工作人员完成一个 epoch，而其他工作人员仍在迭代他们的数据部分，则工作人员可能会不同步。

具有相同参数的相同代码在单个本地 GPU 上运行良好。我该如何解决这个问题？

azure-machine-learning-service

2019-09-18T18:01:47.947

0 投票

2 回答

1249 浏览