问题标签 [nvidia-docker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1520 浏览

python - 用于 Python 的 Nvidia-Docker API?

我目前正在运行许多类似的 Docker 容器,这些容器是由 Python 脚本通过官方 API 创建和运行的。由于 Docker 本身不支持 GPU 映射,因此我测试了 Nvidia-Docker,它满足了我的要求,但我不确定如何将它无缝集成到我的脚本中。

我尝试使用 Google 和文档为 Nvidia-Docker 找到正确的 API 调用,但我没有找到任何有用的东西。

我当前的代码如下所示:

API 的文档可以在这里找到。

来自Nvidia-Dockers Github页面:

Docker® 引擎使用的默认运行时是 runc,我们的运行时可以通过使用 --default-runtime=nvidia 配置 docker 守护进程成为默认运行时。这样做将无需将 --runtime=nvidia 参数添加到 docker run。这也是在 docker build 期间获得 GPU 访问权限的唯一方法。

基本上,我想将 --runtime=nvidia-docker 参数添加到我的 create_container 调用中,但似乎不支持它。

但是由于我需要在脚本执行期间多次在运行时之间切换(混合 Nvidia-Docker 和本机 Docker 容器),快速而肮脏的方法是使用进程运行 bash 命令,但我觉得必须有更好的方法。

TL;DR:我正在寻找一种从 Python 脚本运行 Nvidia-Docker 容器的方法。

0 投票
1 回答
1482 浏览

docker - 无法在 docker 上执行 nvidia 运行时

我正在尝试让 nvidia-docker 在我的 centos7 系统上运行:

到目前为止,一切都很好:

现在,让我们尝试使用 nvidia 运行时:

但奇怪的是……

0 投票
1 回答
6512 浏览

docker - nvidia-docker run 与 docker run --runtime=nvidia

有没有区别:

nvidia-docker run

docker run --runtime=nvidia?

官方文档中,他们使用后者,但我在其他在线教程中看到了前者。

0 投票
1 回答
469 浏览

jenkins - 使用 Jenkins 和 nvidia-docker 对多个 GPU 进行排队

我在具有 4 个 GPU 的机器上运行 Jenkins,并运行 Jenkins 作业nvidia-docker以使用 GPU。NVIDIA_VISIBLE_DEVICES我可以传递一个属性,nvidia-docker让我指定容器中可以访问哪些 GPU。我想做的是使用 Jenkins 来管理 GPU 资源并相应地排队作业,即制作参数化作业,询问用户他们需要多少 GPU 来完成这项工作,并且它可以在它们可用时排队并启动作业。理想情况下,我想在多个从节点上执行此操作,例如每个节点有 4 个 GPU。

这看起来可能吗?

0 投票
1 回答
922 浏览

amazon-sagemaker - sagemaker 上的 cuda / nvidia-driver 与自定义容器不匹配

我有一个自定义容器(源自nvidia/cuda:9.0-runtime)来在 sagemaker 上运行培训。但是在启动时我收到了错误CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:32,显然是想告诉我我的 cuda 版本不支持图形驱动程序(......将两个版本号与错误消息一起公开......),但我不能弄清楚如何找出容器中安装的显示驱动程序。我所能找到的只是它说 sagemaker 有 nvidia-docker buildin。我试图nvidia-smi在错误发生之前触发,但容器中不知道该命令。有一句神秘的话

我很确定是这种情况,但是没有复选框或任何东西可以切换“使用主机 GPU 访问运行此容器”。有什么想法我可以继续吗?

0 投票
2 回答
398 浏览

docker - 如何增加nvidia-docker初始化的超时限制

我想知道如何在初始化时增加 nvidia-docker 的超时限制。

当我的 2 个或更多 4-GPU 服务器忙时,我总是收到超时错误:

nvidia-container-cli:初始化错误:驱动程序错误:超时

启动 docker 时:

非常感谢您的帮助!

0 投票
1 回答
168 浏览

amazon-web-services - 带有 p2 实例的 AWS DLAMI 中的 Nvidia Docker 安装错误

尝试在实例上运行的 Amazon 深度学习 AMI中nvidia-docker使用命令sudo yum install nvidia-docker2(参考此处此处)进行安装时出现以下错误:p2.xlarge

有没有人遇到过这个错误?

0 投票
1 回答
3333 浏览

linux - docker:无法连接到 unix:///var/run/docker.sock 上的 Docker 守护进程。docker 守护进程是否正在运行?对于 Ubuntu 16.04

运行任何 docker 命令时出现上述错误。当我运行以下命令时


$ sudo docker info
输出



所有 docker 命令都不起作用。他们都抛出相同的错误。


$ sudo systemctl status docker
输出。


$ sudo systemctl status nvidia-docker
输出


当我运行以下命令时...
$ sudo service docker restart
输出
Job for docker.service failed because the control process exited with error code. See _"systemctl status docker.service"_ and _"journalctl -xe"_ for details.

我已经运行了“systemctl status docker.service”,还运行了“journalctl -xe”命令来了解问题所在。journalctl 输出包含

“journalctl -xe”命令抛出的outpot的更完整的txt文件


0 投票
1 回答
405 浏览

python-3.x - 仅与交互式 nvidia docker 一起运行的 python 脚本

如果打算使用以下命令运行 python 脚本

这会引发错误

没有名为chester.run_exp 的模块

但是,如果我首先通过添加-it标志以交互方式运行 docker

一旦进入码头,我会

一切运行完美。

0 投票
1 回答
290 浏览

docker - 防止 Kops 在配置节点时替换 docker 安装

我在支持 GPU 的 EC2 实例上使用为机器学习配置的自定义映像 (AMI)。

这意味着cuda,libcudnn6nvidia-docker都已正确设置。

但是,当 Kops 从这些 AMI 启动新节点(我使用 cluster-autoscaler)时,它会覆盖我正确设置的 docker。

我怎样才能防止这种情况?

现在我在启动时运行一个自定义脚本,可以正确地重新安装nvidia-docker,但这显然并不理想。