我在支持 GPU 的 EC2 实例上使用为机器学习配置的自定义映像 (AMI)。
这意味着cuda
,libcudnn6
等nvidia-docker
都已正确设置。
但是,当 Kops 从这些 AMI 启动新节点(我使用 cluster-autoscaler)时,它会覆盖我正确设置的 docker。
我怎样才能防止这种情况?
现在我在启动时运行一个自定义脚本,可以正确地重新安装nvidia-docker
,但这显然并不理想。
我在支持 GPU 的 EC2 实例上使用为机器学习配置的自定义映像 (AMI)。
这意味着cuda
,libcudnn6
等nvidia-docker
都已正确设置。
但是,当 Kops 从这些 AMI 启动新节点(我使用 cluster-autoscaler)时,它会覆盖我正确设置的 docker。
我怎样才能防止这种情况?
现在我在启动时运行一个自定义脚本,可以正确地重新安装nvidia-docker
,但这显然并不理想。
如果 Kops 预期使用的版本与节点上已安装的版本之间存在差异,则 Kops 只会安装 docker。
请注意,如果安装的版本高于预期,Kops 将降级docker !
所以我的问题的解决方案是有一个匹配的预安装版本spec.docker.version
。
为此,我们不得不将 docker 降级为17.03.2
和 nvidia-docker 降级为2.0.3+docker17.03.2-1
.