0

我们一直在将数据科学虚拟机与 CI 的虚拟机规模集结合使用,然后在连接的 Azure 管道中运行自定义 Docker 映像。

https://github.com/PyTorchLightning/metrics/blob/77e252ec6165ec94e23ce5c5cf9ffdad01bf54a1/azure-pipelines.yml#L29

最近我们正在观察以下失败消息

Starting: Initialize containers
/usr/bin/docker version --format '{{.Server.APIVersion}}'
Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
'
##[error]Exit code 1 returned from process: file name '/usr/bin/docker', arguments 'version --format '{{.Server.APIVersion}}''.

在此处查看完整输出 - https://dev.azure.com/PytorchLightning/Metrics/_build/results?buildId=9061&view=logs&j=fd70b5b8-241a-53bf-d137-3fd86cf9f066&t=a0ca1fe4-fde6-4a82-9888-52f5ae79d8fe

更新:该问题已在 2021 年 6 月版本中解决,请参阅Azure DSVM 发行说明

4

3 回答 3

1

根据上面帖子的讨论,解决方案(目前)是将规模集图像的版本固定到以前的版本:

az vmss update -g <resource group> -n <vmss name> --set virtualMachineProfile.storageProfile.imageReference.version=21.01.21

Docker 似乎在最新版本的 DSVM 中被禁用。在纠正之前,请固定版本。一般来说,为了稳定性,固定版本可能是一个好主意,然后在更改版本时慎重考虑,以便了解发生了什么。

于 2021-05-21T21:45:05.333 回答
0

Docker 在 Data Science Virtual Machine - Ubuntu 18 的最新映像版本 (21.06.01) 上默认启用。这应该可以解决此问题。

于 2021-06-03T19:09:07.270 回答
-1

下面的命令正在使用最新的数据科学虚拟机。

/usr/bin/docker --version

Docker 版本 20.10.6+azure,构建 370c28948e3c12dce3d1df60b6f184990618553f

但是上面的命令输出有效,我们需要使用以下命令启动 docker daemon:

sudo systemctl unmask docker

sudo systemctl 启动泊坞窗

sudo chmod 777 /var/run/docker.sock

于 2021-05-19T06:17:25.423 回答