问题标签 [nvidia-docker]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 用于 Python 的 Nvidia-Docker API?
我目前正在运行许多类似的 Docker 容器,这些容器是由 Python 脚本通过官方 API 创建和运行的。由于 Docker 本身不支持 GPU 映射,因此我测试了 Nvidia-Docker,它满足了我的要求,但我不确定如何将它无缝集成到我的脚本中。
我尝试使用 Google 和文档为 Nvidia-Docker 找到正确的 API 调用,但我没有找到任何有用的东西。
我当前的代码如下所示:
API 的文档可以在这里找到。
Docker® 引擎使用的默认运行时是 runc,我们的运行时可以通过使用 --default-runtime=nvidia 配置 docker 守护进程成为默认运行时。这样做将无需将 --runtime=nvidia 参数添加到 docker run。这也是在 docker build 期间获得 GPU 访问权限的唯一方法。
基本上,我想将 --runtime=nvidia-docker 参数添加到我的 create_container 调用中,但似乎不支持它。
但是由于我需要在脚本执行期间多次在运行时之间切换(混合 Nvidia-Docker 和本机 Docker 容器),快速而肮脏的方法是使用子进程运行 bash 命令,但我觉得必须有更好的方法。
TL;DR:我正在寻找一种从 Python 脚本运行 Nvidia-Docker 容器的方法。
docker - 无法在 docker 上执行 nvidia 运行时
我正在尝试让 nvidia-docker 在我的 centos7 系统上运行:
到目前为止,一切都很好:
现在,让我们尝试使用 nvidia 运行时:
但奇怪的是……
jenkins - 使用 Jenkins 和 nvidia-docker 对多个 GPU 进行排队
我在具有 4 个 GPU 的机器上运行 Jenkins,并运行 Jenkins 作业nvidia-docker
以使用 GPU。NVIDIA_VISIBLE_DEVICES
我可以传递一个属性,nvidia-docker
让我指定容器中可以访问哪些 GPU。我想做的是使用 Jenkins 来管理 GPU 资源并相应地排队作业,即制作参数化作业,询问用户他们需要多少 GPU 来完成这项工作,并且它可以在它们可用时排队并启动作业。理想情况下,我想在多个从节点上执行此操作,例如每个节点有 4 个 GPU。
这看起来可能吗?
amazon-sagemaker - sagemaker 上的 cuda / nvidia-driver 与自定义容器不匹配
我有一个自定义容器(源自nvidia/cuda:9.0-runtime
)来在 sagemaker 上运行培训。但是在启动时我收到了错误CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:32
,显然是想告诉我我的 cuda 版本不支持图形驱动程序(......将两个版本号与错误消息一起公开......),但我不能弄清楚如何找出容器中安装的显示驱动程序。我所能找到的只是它说 sagemaker 有 nvidia-docker buildin。我试图nvidia-smi
在错误发生之前触发,但容器中不知道该命令。有一句神秘的话
我很确定是这种情况,但是没有复选框或任何东西可以切换“使用主机 GPU 访问运行此容器”。有什么想法我可以继续吗?
docker - 如何增加nvidia-docker初始化的超时限制
我想知道如何在初始化时增加 nvidia-docker 的超时限制。
当我的 2 个或更多 4-GPU 服务器忙时,我总是收到超时错误:
nvidia-container-cli:初始化错误:驱动程序错误:超时
启动 docker 时:
非常感谢您的帮助!
linux - docker:无法连接到 unix:///var/run/docker.sock 上的 Docker 守护进程。docker 守护进程是否正在运行?对于 Ubuntu 16.04
运行任何 docker 命令时出现上述错误。当我运行以下命令时
$ sudo docker info
输出
所有 docker 命令都不起作用。他们都抛出相同的错误。
$ sudo systemctl status docker
输出。
$ sudo systemctl status nvidia-docker
输出
当我运行以下命令时...
$ sudo service docker restart
输出
Job for docker.service failed because the control process exited with error code. See _"systemctl status docker.service"_ and _"journalctl -xe"_ for details.
我已经运行了“systemctl status docker.service”,还运行了“journalctl -xe”命令来了解问题所在。journalctl 输出包含
“journalctl -xe”命令抛出的outpot的更完整的txt文件
python-3.x - 仅与交互式 nvidia docker 一起运行的 python 脚本
如果打算使用以下命令运行 python 脚本
这会引发错误
没有名为chester.run_exp 的模块
但是,如果我首先通过添加-it
标志以交互方式运行 docker
一旦进入码头,我会
一切运行完美。
docker - 防止 Kops 在配置节点时替换 docker 安装
我在支持 GPU 的 EC2 实例上使用为机器学习配置的自定义映像 (AMI)。
这意味着cuda
,libcudnn6
等nvidia-docker
都已正确设置。
但是,当 Kops 从这些 AMI 启动新节点(我使用 cluster-autoscaler)时,它会覆盖我正确设置的 docker。
我怎样才能防止这种情况?
现在我在启动时运行一个自定义脚本,可以正确地重新安装nvidia-docker
,但这显然并不理想。