问题标签 [nvidia-docker]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docker - nvidia-docker : 未知的运行时指定 nvidia
安装 docker-ce 后,我尝试安装 nvidia-docker。我按照这个:https ://github.com/NVIDIA/nvidia-docker安装 nvidia-docker。它似乎已正确安装。
我试图运行:
虽然,这有效(没有 --runtime=nvidia):
关于我的系统的一些附加信息:它是一个带有 8 个 GPU(Titan Xp)和 nvidia 驱动程序版本 387.26 的 ubuntu 服务器 16.04。我可以在主机系统上运行 nvidia-smi -l 1 并且它按预期工作。
我遇到过:https ://github.com/NVIDIA/nvidia-docker/issues/501 ,但我不确定我应该如何去做。
docker - 码头集装箱是如何安排的?
我试图弄清楚 docker 容器是如何安排的。
有谁知道我应该阅读哪些文件或在安排容器时考虑哪些因素?
我也对 nvidia-docker 和 Rodinia 基准测试感兴趣。GPU内存使用的大小会是调度时考虑的因素之一吗?
愿意接受有关分析或改进 docker 的任何建议!
kubernetes - Kubernetes添加GPU支持,cpu节点是否需要安装nvidia驱动和nvidia docker?
我是 Kubernetes 新手。现在我需要用 GPU 添加 2 个节点。原始环境是 5 个 cpu 节点。我也应该在 5 cpu 节点中安装 nvidia 驱动程序和 nvidia docker 吗?
docker - Docker 未满足的依赖项:nvidia-docker2
当我运行以下命令时:
我收到以下错误响应:
linux - 为什么我的 NVIDIA docker 不工作?来自守护进程的错误响应?
我正在尝试安装 NVIDIA docker。我使用了这些行:
接着:
$ sudo apt-get install nvidia-docker
现在尝试通过键入以下内容检查它是否安装正确:
nvidia-docker run --rm nvidia/cuda nvidia-smi
出现此错误:
英伟达码头 | 2018/11/06 13:09:24 错误:尝试在 unix:///var/run/docker.sock 连接到 Docker 守护程序套接字时获得权限被拒绝:获取 http://%2Fvar%2Frun%2Fdocker。 sock/v1.38/version : 拨打 unix /var/run/docker.sock: connect: 权限被拒绝
后来我试过:
sudo nvidia-docker run --rm nvidia/cuda nvidia-smi
出现此错误:
Using default tag: latest latest: Pulling from nvidia/cuda 473ede7ed136: Pull complete c46b5fa4d940: Pull complete 93ae3df89c92: Pull complete 6b1eed27cade: Pull complete d31e9163d0a5: Pull complete 8668af631f88: Pull complete 0d99f8ab6ae2: Pull complete 74440c29d798: Pull complete Digest: sha256:a6b5fd418d1cd0bc6d8a60c1c4ba33670508487039b828904f8494ec29e6b450 Status :为 nvidia/cuda 下载了较新的映像:最新的 docker:来自守护进程的错误响应:OCI 运行时创建失败:container_linux.go:348:启动容器进程导致“exec:\”nvidia-smi\”:在 $PATH 中找不到可执行文件“:未知。
我用 Ubuntu 安装 Linux。有人能帮助我吗?
docker - GPU 上的深度学习
DGX-1 的功率相当大。但是,在使用它时,我只使用了八张卡中的一张的 34%。我可能会错过一些要点和调整吗?我知道我不能并行化所有东西,这是有上限的。但老实说,我期待更好的表现。
我正在运行一个预装了 tensorflow 的 nvidia-docker。运行的脚本来自 dennybritz,它使用得很好。我运行泊坞窗一张一张卡。由于它没有使用整张卡,我没有给他第二张。这会有什么好处吗?当然,我可以运行多个实例并选择最好的一个。但是当有 170TFLOPS 可访问时,我宁愿早点得到结果。
docker - "make all -j"$(nproc)" 命令在 Docker 容器中有效,但在 Dockerfile 中无效
我编写了以下 Dockerfile 以使用 OpenPose ( https://github.com/CMU-Perceptual-Computing-Lab/openpose )构建图像
在构建 Dockerfile 时,nvidia-docker build -t openpose_image .
我在最后一步中收到以下错误:
这里还发生了两件奇怪的事情。1)如果我运行到目前为止构建的图像docker run -it openpose_image
,然后cd opt/openpose/build && make all -j"$(nproc)"
我会得到同样的错误。2)如果我这样做nvidia-docker run -it openpose_image
,然后cd opt/openpose/build && make all -j"$(nproc)"
建筑物运行顺利,成功结束而不会引发错误。有人可以帮我弄清楚发生了什么吗?谢谢
tensorflow - 如何在 nvidia-docker segfaulting 中调试 tensorflow?
我在像这样在交互式环境中运行的 ubuntu 18.04 上:
奇怪的是,当我以非交互方式运行时,我没有遇到段错误,即 docker run ... python stuff/mnist.py
英伟达详情:
darknet - nvidia-docker - 构建容器时可以使用 cuda_runtime 吗?
在尝试在 docker 容器的构建命令中编译暗网时,我经常遇到异常include/darknet.h:11:30: fatal error: cuda_runtime.h: No such file or directory
。
我正在根据此处的说明构建容器:https ://github.com/NVIDIA/nvidia-docker/wiki/Deploy-on-Amazon-EC2 。我有一个简单的Dockerfile
测试 - 相关部分:
在运行容器时,我看到的大多数文档都使用 nvidia 库进行引用,但暗网在构建gpu
支持时编译方式不同,因此我需要cuda_runtime.h
在构建时可用。
也许我误解了nvidia-docker
正在做的事情 - 我假设nvidia-docker
存在,因为 Nvidia 代码必须安装在实际主机上而不是容器内,并且他们使用某种机制与容器共享“本机”代码,因此 GPU 可以管理 - 这是正确的吗?
我应该在构建容器时尝试构建darknet
还是应该将它安装在主机上,然后以某种方式使其可用于容器?这似乎违背了容器的可移植性,但我可以忍受一些限制来访问 GPU。
gpu - 每个 docker 容器的不同 nvidia 驱动程序版本
是否可以运行两个 Nvidia Docker 容器,每个容器都有自己的 Nvidia 驱动程序版本?
在我的云实例上,我有一个较旧的应用程序正在运行,较新的 Nvidia 驱动程序正在导致问题。我希望能够继续使用较旧的驱动程序运行它,同时允许同一实例上的较新应用程序使用较新的驱动程序。我在想我可以用容器来完成这个,但我担心它们只允许你在用户空间中容器化东西。