问题标签 [nvidia-docker]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docker - Ubuntu18.04下默认无法安装nvidia-docker2
1.问题或功能描述
Ubuntu18.04下无法安装nvidia-docker2
2. 重现问题的步骤
docker - 丢弃已发布的端口后如何设置 docker 端口?
我想使用以下方法安装tensorflow:
但我得到:
警告:使用主机网络模式时,已发布的端口将被丢弃
如何设置端口?
docker - 在 Unbutu16.04 升级 docker
我在 Ubuntu16.05 中有 docker 版本 18.09.5。
我需要安装 nvidia-docker2 并且错误是
所以需要升级到18.09.7。
我按照链接进行更新。但看起来,它做得不对。所以我按如下方式中止。
那么对于我来说,安装 nvidia-docker2 的正确方法是什么?
我需要升级 docker 还是如何升级?
docker - 如何检查谁创建了 Docker 映像?
与主题一样,我如何检查谁创建了某个 docker 映像?
当我检查时,docker images
我没有得到这些信息。
谢谢。
docker - 当主机具有 CUDA 9 时,我可以使用 CUDA 10 运行 Docker 容器吗?
我在需要 CUDA 10 的 docker 容器中部署应用程序。这是运行应用程序使用的一些底层 pytorch 功能所必需的。
但是,主机服务器正在运行 docker ce 17、Nvidia-docker v 1.0 和 CUDA 版本 9,我将无法升级主机。
我的印象是我被主机上可用的 v1 nvidia docker runtime 和 CUDA 版本束缚住了。
有没有办法在容器上运行 CUDA 10,以便我可以利用这个工具包的功能?
docker - 如何让 Docker 识别 NVIDIA 驱动程序?
我有一个加载 Pytorch 模型的容器。每次我尝试启动它时,我都会收到此错误:
我知道那nvidia-docker2
行得通。
但是,我不断收到上述错误。
我尝试了以下方法:
设置
"default-runtime": nvidia
_/etc/docker/daemon.json
使用
docker run --runtime=nvidia <IMAGE_ID>
将以下变量添加到我的 Dockerfile 中:
我希望这个容器能够运行——我们有一个没有这些问题的生产版本。而且我知道 Docker 可以找到驱动程序,如上面的输出所示。有任何想法吗?
python - Keras 模型停止训练,但没有说明为什么以及如何启用 GPU 加速
我正在尝试在 c5.large 实例 (AWS) 上迁移学习预训练的 MobileNet 模型。
我是第一次训练(老化)最后一个密集层几个时期(在 5-20 之间尝试,似乎并不重要)。
在老化期之后,我想训练完整的模型。但是,这会在几个 epoch 之后停止而没有错误。
早些时候,我尝试过没有老化期,并且效果“很好”。通常会在大约 50 个 epoch 后使服务器崩溃(这就是我添加 clipnorm 的原因,这确实有点帮助)。
欢迎任何关于如何调试的想法。
控制台输出:
培训代码:
更新和跟进
最初的问题似乎是由机器上的可用内存太少引起的。不过,我确实有一个不相关但相关的问题。在尝试使用 GPU 加速时,我一直在用头撞墙,因为我似乎无法让它工作。
是否有任何好的(逻辑结构和易于理解的)信息如何使用:
- 本地机器上的 Docker(构建启用 GPU 加速的映像)
- 在 GPU 实例上安装所有相关的(nvidia-)驱动程序(多么疯狂的版本混乱)
- 运行 Docker 容器(nvidia-docker2、nvidia-docker 或 --runtime==nvidia ??)
- Cuda到底是什么,我为什么需要它?
- 我发现的一些资源建议在 Docker 中运行 Cuda,为什么?
当我似乎得到了一些工作(即设置驱动程序,某个版本)并设法构建了一个启用 GPU(即 tensorflow-gpu)的 Docker 映像时,我收到了这个错误:
docker:来自守护进程的错误响应:OCI 运行时创建失败:container_linux.go:345:启动容器进程导致“process_linux.go:430:容器初始化导致\”process_linux.go:413:运行预启动挂钩1 导致\“错误运行钩子:退出状态1,标准输出:,标准错误:执行命令:[/usr/bin/nvidia-container-cli --load-kmods configure --ldconfig=@/sbin/ldconfig.real --device=all --compute --utility --require=cuda>=10.0 brand=tesla,driver>=384,driver<385 brand=tesla,driver>=410,driver<411 --pid=2113 /var/lib/docker/overlay2/4bf49d2555c40278b3249f73bf3d33484181f51b374b77b69a174fc39e347 /merged]\\nnvidia-container-cli:要求错误:不满足条件:驱动程序 >= 410\\n\\"\"":未知。
docker - 如何使主机目录在 Ubuntu 上可共享?
我在 /home/easton/notebooks 中看不到 Jupyter 文件,我该如何解决?
python - 如何使用 NVIDIA 驱动程序/CUDA(支持 tensorflow-gpu)和带有 pip 的 Python3 为图像制作 Dockerfile?
我未能成功使用 Dockerfile 为包含以下内容的图像创建 Docker 图像:
- Python3 和 pip,因此我可以使用 pip 安装我的 Python 应用程序的包要求,然后可以访问 Python3 解释器来运行主要涉及 Keras、TensorFlow 和 OpenCV 的应用程序
- NVIDIA 驱动程序和 CUDA 支持足以让 TensorFlow 在运行应用程序时利用 GPU
我尝试使用 Dockerfile 构建一个图像,该图像以 Python 基础图像开头并添加 NVIDIA 驱动程序,如下所示:
我从上面的 Dockerfile 上运行 a 得到了很多输出,docker build
但最后,它给出的消息表明它正在尝试安装我指定的更高版本的驱动程序(430 而不是 418),然后它提示用户输入设置键盘:
当我输入时1
,一切似乎都挂起,所以这还不行。
我还尝试了一个以 NVIDIA 图像开头的 Dockerfile,然后在顶部添加 Python 和 pip,如下所示:
docker build
使用上述运行会出现此错误:
对于上述尝试之一,我可以尝试哪些其他方法或修复?
docker - 如何在 Kubernetes 中通过 Docker CLI `--gpus` 选项或启用 GPU 支持而不安装`nvidia-docker2` (Docker 19.03)
我目前正在使用 Docker 19.03 和 Kubernetes 1.13.5 和 Rancher 2.2.4。从 19.03 开始,Docker 已经正式支持原生 NVIDIA GPU,只需通过--gpus
选项即可。示例(来自NVIDIA/nvidia-docker github):
但在 Kubernetes 中,没有传递 Docker CLI 选项的选项。所以如果我需要运行一个GPU实例,我必须安装nvidia-docker2
,使用起来不方便。
无论如何要通过 Docker CLI 选项或通过 NVIDIA 运行时而不安装nvidia-docker2