0

我在支持 GPU 的 EC2 实例上使用为机器学习配置的自定义映像 (AMI)。

这意味着cuda,libcudnn6nvidia-docker都已正确设置。

但是,当 Kops 从这些 AMI 启动新节点(我使用 cluster-autoscaler)时,它会覆盖我正确设置的 docker。

我怎样才能防止这种情况?

现在我在启动时运行一个自定义脚本,可以正确地重新安装nvidia-docker,但这显然并不理想。

4

1 回答 1

0

如果 Kops 预期使用的版本与节点上已安装的版本之间存在差异,则 Kops 只会安装 docker。

请注意,如果安装的版本高于预期,Kops 将降级docker !

所以我的问题的解决方案是有一个匹配的预安装版本spec.docker.version

为此,我们不得不将 docker 降级为17.03.2和 nvidia-docker 降级为2.0.3+docker17.03.2-1.

于 2018-07-14T11:01:12.553 回答