问题标签 [nvidia-docker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1396 浏览

docker - Ubuntu18.04下默认无法安装nvidia-docker2

1.问题或功能描述

Ubuntu18.04下无法安装nvidia-docker2

2. 重现问题的步骤

0 投票
0 回答
44 浏览

docker - 丢弃已发布的端口后如何设置 docker 端口?

我想使用以下方法安装tensorflow:

但我得到:

警告:使用主机网络模式时,已发布的端口将被丢弃

如何设置端口?

0 投票
1 回答
1678 浏览

docker - 在 Unbutu16.04 升级 docker

我在 Ubuntu16.05 中有 docker 版本 18.09.5。

我需要安装 nvidia-docker2 并且错误是

所以需要升级到18.09.7。

我按照链接进行更新。但看起来,它做得不对。所以我按如下方式中止。

那么对于我来说,安装 nvidia-docker2 的正确方法是什么?

我需要升级 docker 还是如何升级?

0 投票
2 回答
1240 浏览

docker - 如何检查谁创建了 Docker 映像?

与主题一样,我如何检查谁创建了某个 docker 映像?

当我检查时,docker images我没有得到这些信息。

谢谢。

0 投票
1 回答
9726 浏览

docker - 当主机具有 CUDA 9 时,我可以使用 CUDA 10 运行 Docker 容器吗?

我在需要 CUDA 10 的 docker 容器中部署应用程序。这是运行应用程序使用的一些底层 pytorch 功能所必需的。

但是,主机服务器正在运行 docker ce 17、Nvidia-docker v 1.0 和 CUDA 版本 9,我将无法升级主机。

我的印象是我被主机上可用的 v1 nvidia docker runtime 和 CUDA 版本束缚住了。

有没有办法在容器上运行 CUDA 10,以便我可以利用这个工具包的功能?

0 投票
3 回答
6867 浏览

docker - 如何让 Docker 识别 NVIDIA 驱动程序?

我有一个加载 Pytorch 模型的容器。每次我尝试启动它时,我都会收到此错误:

我知道那nvidia-docker2行得通。

但是,我不断收到上述错误。

我尝试了以下方法:

  1. 设置"default-runtime": nvidia_/etc/docker/daemon.json

  2. 使用docker run --runtime=nvidia <IMAGE_ID>

  3. 将以下变量添加到我的 Dockerfile 中:

我希望这个容器能够运行——我们有一个没有这些问题的生产版本。而且我知道 Docker 可以找到驱动程序,如上面的输出所示。有任何想法吗?

0 投票
3 回答
1210 浏览

python - Keras 模型停止训练,但没有说明为什么以及如何启用 GPU 加速

我正在尝试在 c5.large 实例 (AWS) 上迁移学习预训练的 MobileNet 模型。

我是第一次训练(老化)最后一个密集层几个时期(在 5-20 之间尝试,似乎并不重要)。

在老化期之后,我想训练完整的模型。但是,这会在几个 epoch 之后停止而没有错误。

早些时候,我尝试过没有老化期,并且效果“很好”。通常会在大约 50 个 epoch 后使服务器崩溃(这就是我添加 clipnorm 的原因,这确实有点帮助)。

欢迎任何关于如何调试的想法。

控制台输出:

培训代码:

更新和跟进

最初的问题似乎是由机器上的可用内存太少引起的。不过,我确实有一个不相关但相关的问题。在尝试使用 GPU 加速时,我一直在用头撞墙,因为我似乎无法让它工作。

是否有任何好的(逻辑结构和易于理解的)信息如何使用:

  • 本地机器上的 Docker(构建启用 GPU 加速的映像)
  • 在 GPU 实例上安装所有相关的(nvidia-)驱动程序(多么疯狂的版本混乱)
  • 运行 Docker 容器(nvidia-docker2、nvidia-docker 或 --runtime==nvidia ??)
  • Cuda到底是什么,我为什么需要它?
  • 我发现的一些资源建议在 Docker 中运行 Cuda,为什么?

当我似乎得到了一些工作(即设置驱动程序,某个版本)并设法构建了一个启用 GPU(即 tensorflow-gpu)的 Docker 映像时,我收到了这个错误:

docker:来自守护进程的错误响应:OCI 运行时创建失败:container_linux.go:345:启动容器进程导致“process_linux.go:430:容器初始化导致\”process_linux.go:413:运行预启动挂钩1 导致\“错误运行钩子:退出状态1,标准输出:,标准错误:执行命令:[/usr/bin/nvidia-container-cli --load-kmods configure --ldconfig=@/sbin/ldconfig.real --device=all --compute --utility --require=cuda>=10.0 brand=tesla,driver>=384,driver<385 brand=tesla,driver>=410,driver<411 --pid=2113 /var/lib/docker/overlay2/4bf49d2555c40278b3249f73bf3d33484181f51b374b77b69a174fc39e347 /merged]\\nnvidia-container-cli:要求错误:不满足条件:驱动程序 >= 410\\n\\"\"":未知。

0 投票
1 回答
53 浏览

docker - 如何使主机目录在 Ubuntu 上可共享?

我在 /home/easton/notebooks 中看不到 Jupyter 文件,我该如何解决?

0 投票
1 回答
3649 浏览

python - 如何使用 NVIDIA 驱动程序/CUDA(支持 tensorflow-gpu)和带有 pip 的 Python3 为图像制作 Dockerfile?

我未能成功使用 Dockerfile 为包含以下内容的图像创建 Docker 图像:

  1. Python3 和 pip,因此我可以使用 pip 安装我的 Python 应用程序的包要求,然后可以访问 Python3 解释器来运行主要涉及 Keras、TensorFlow 和 OpenCV 的应用程序
  2. NVIDIA 驱动程序和 CUDA 支持足以让 TensorFlow 在运行应用程序时利用 GPU

我尝试使用 Dockerfile 构建一个图像,该图像以 Python 基础图像开头并添加 NVIDIA 驱动程序,如下所示:

我从上面的 Dockerfile 上运行 a 得到了很多输出,docker build但最后,它给出的消息表明它正在尝试安装我指定的更高版本的驱动程序(430 而不是 418),然后它提示用户输入设置键盘:

当我输入时1,一切似乎都挂起,所以这还不行。

我还尝试了一个以 NVIDIA 图像开头的 Dockerfile,然后在顶部添加 Python 和 pip,如下所示:

docker build使用上述运行会出现此错误:

对于上述尝试之一,我可以尝试哪些其他方法或修复?

0 投票
1 回答
2384 浏览

docker - 如何在 Kubernetes 中通过 Docker CLI `--gpus` 选项或启用 GPU 支持而不安装`nvidia-docker2` (Docker 19.03)

我目前正在使用 Docker 19.03 和 Kubernetes 1.13.5 和 Rancher 2.2.4。从 19.03 开始​​,Docker 已经正式支持原生 NVIDIA GPU,只需通过--gpus选项即可。示例(来自NVIDIA/nvidia-docker github):

但在 Kubernetes 中,没有传递 Docker CLI 选项的选项。所以如果我需要运行一个GPU实例,我必须安装nvidia-docker2,使用起来不方便。

无论如何要通过 Docker CLI 选项或通过 NVIDIA 运行时而不安装nvidia-docker2