我想知道如何在初始化时增加 nvidia-docker 的超时限制。
当我的 2 个或更多 4-GPU 服务器忙时,我总是收到超时错误:
nvidia-container-cli:初始化错误:驱动程序错误:超时
启动 docker 时:
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
非常感谢您的帮助!
我想知道如何在初始化时增加 nvidia-docker 的超时限制。
当我的 2 个或更多 4-GPU 服务器忙时,我总是收到超时错误:
nvidia-container-cli:初始化错误:驱动程序错误:超时
启动 docker 时:
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
非常感谢您的帮助!
I don't know how to change the timeout, though you can work around this problem by starting nvidia-persistenced
beforehand, which will initialize the GPU devices and keep them open, so the driver doesn't have to go through that process during docker startup.
这不是问题的确切答案,而只是克服超时错误的解决方法。
在启动 docker 之前,运行nvidia-smi
以查看哪些进程正在 GPU 上运行。使用以下方法禁用这些进程:
kill -TSTP [pid]
然后启动泊坞窗。完成后,使用以下命令继续之前禁用的进程:
kill -CONT [pid]