0

我想知道如何在初始化时增加 nvidia-docker 的超时限制。

当我的 2 个或更多 4-GPU 服务器忙时,我总是收到超时错误:

nvidia-container-cli:初始化错误:驱动程序错误:超时

启动 docker 时:

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

非常感谢您的帮助!

4

2 回答 2

0

I don't know how to change the timeout, though you can work around this problem by starting nvidia-persistenced beforehand, which will initialize the GPU devices and keep them open, so the driver doesn't have to go through that process during docker startup.

于 2018-07-02T15:56:03.677 回答
0

这不是问题的确切答案,而只是克服超时错误的解决方法。

在启动 docker 之前,运行nvidia-smi以查看哪些进程正在 GPU 上运行。使用以下方法禁用这些进程:

kill -TSTP [pid]

然后启动泊坞窗。完成后,使用以下命令继续之前禁用的进程:

kill -CONT [pid]
于 2018-07-02T16:57:04.283 回答