问题标签 [nvidia-docker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
3443 浏览

python - 警告:tensorflow:忽略带有图像 id 的检测,尽管配置参数为真

我目前正在尝试使用 GTSDB 数据集训练 Faster RCNN Inception V2 模型(使用 COCO 预训练)。我有 FullIJCNN 数据集,我将数据集分为训练验证测试三部分。最后,我分别创建了 3 个不同的 csv 文件,然后为trainvalidation创建了 TFRecord 文件。另一方面,我有一个代码块,可以读取每个图像的真实框坐标,并在图像上的交通标志周围绘制框。它也正确地写了类标签。这里有几个例子。同样,这些框不是由网络预测的。他们通过一个函数手动绘制。

画框 1

画框 2

然后我使用数据集文件夹中包含的 README 文件创建了一个标签文件,并将0 背景行添加到 labels.txt 的第一行以使其与我的代码一起使用(我认为这是一件愚蠢的事情),因为它是抛出索引错误。但是,我的 .pbtxt 文件中没有“背景”的键以使其从 1 开始。最后我配置了faster_rcnn_inception_v2_coco.config文件,更改num_classes: 90num_classes: 43因为数据集有 43 个类,num_examples: 5000因为num_examples: 186我已经将数据集划分为186 个测试示例。num_steps: 200000照原样使用。最后,我通过运行开始了培训工作

命令,这是回溯(对不起代码块,我不知道如何专门添加日志):

它产生了很多这样的警告:

这些消息的原因num_examples已设置为2000尽管我的原始配置文件有num_examples: 186. 我不明白为什么它要创建一个具有不同参数的新配置文件。然而,在充满这些消息的整个日志之后,它会给出一个报告,但我不能确定这到底是想告诉我什么。这是报告:

最后,我检查了 Tensorboard 以确保它训练正确,但我看到的结果令人沮丧。这是我的模型(损失)的 Tensorboard 图的屏幕截图:

失利

一般损失

我觉得我做错了什么。我不知道这是否是一个具体的问题,但我试图尽可能详细地提供。

我的问题是:我应该在这些步骤中进行哪些更改?为什么我的函数绘制了真正的盒子,但我的模型无法弄清楚发生了什么?提前致谢!

0 投票
1 回答
340 浏览

docker - nvidia-cuda docker 容器操作系统,不同于主机

在 Nvidia 的开发者页面 ( https://devblogs.nvidia.com/nvidia-docker-gpu-server-application-deployment-made-easy/ )

它指出 nvidia-docker 提供“与驱动程序无关的 CUDA 图像”。我想询问/澄清这是否只是特定于驱动程序版本,还是这也适用于操作系统?

使用 nvidia-docker 是否提供了一种在 Ubuntu Docker 容器中使用 CentOS 的 nvidia 驱动程序的方法?

目前我所做的是我总是有 2 个 Docker 文件来支持 Ubuntu 主机和 CentOS 主机,并手动挂载 /dev/nvidia0 并在 docker 映像中复制库文件(或安装驱动程序)。

我已经向 Nvidia 提出了这个问题,但仍在等待他们回答。我也会自己尝试找出答案,但我只是想试试运气,如果 SO 中的任何人已经知道答案。

提前谢谢你们。

0 投票
1 回答
826 浏览

tensorflow - 在具有 Nvidia GPU 节点的 Kubernetes 上运行示例 pod

我正在尝试使用 Nvidia GPU 节点/从站设置 Kubernetes。我遵循了https://docs.nvidia.com/datacenter/kubernetes-install-guide/index.html上的指南,我能够让节点加入集群。我尝试了以下 kubeadm 示例 pod:

pod 调度失败,kubectl 事件显示:

我正在使用 AWS EC2 实例。主节点为 m5.large,从节点为 g2.8xlarge。描述节点也会给出“ nvidia.com/gpu:4 ”。如果我缺少任何步骤/配置,有人可以帮助我吗?

0 投票
0 回答
509 浏览

python - Nvidia 1070 Ti Ubuntu 18.04 上的深度学习

在这一点上,我正在拔头发,我花了很多时间尝试不同的事情来让我的卡可以使用 Tensorflow。

最近的尝试(与以前有类似的问题)是我尝试安装 tensorflow docker

我安装了 nvidia-docker 并运行了 SMI,它似乎报告我的 GPU 存在。

然后我运行了这个命令

下载并启动后,我尝试运行笔记本(首先是 hello tensorflow 笔记本)。

一旦我尝试“导入”张量流(仅使用默认的未修改笔记本),我就会得到一个 KernelRestart。

我不太确定下一个最佳步骤是什么,我不知道如何对 docker 容器进行故障排除,然后在 jupyter notebook 中进行故障排除。

我之前尝试在没有 docker 容器的情况下在本地运行时遇到过类似的问题。

关于下一步的好建议有什么建议吗?我在这张卡上的花费超出了我的预期,并且不知道如何让它发挥作用。

(我相信我可以使用安装的 tensorflow-gpu 在我的机器上本地导入,但是当我进入 conv2d 部分时,我会无法创建 cudnn 句柄:CUDNN_STATUS_NOT_INITIALIZED,如果我回忆的话,但已经有几天忙碌了)

编辑:对 cuda 和 cudnn 是的,我很容易安装 nvidia-390,看起来很好的测试是 nvidia-smi 有效。我刚刚从头开始编译 tf 并且仍然失败(在这种情况下,导入 tf 不会失败,但同样没有初始化错误,而且可能不是它提到的正确 nvidia 版本,并且我认为调用了 nvidia-390.77)我正在考虑一个新的 18.04安装和较早的 nvidia-3xx 版本安装,尝试“降级”导致 apt 损坏,并尝试修复数天

EDIT2:我也意识到我安装了 CUDA 9.0,但是 cudnn7.1 和 9.1 CUDA(你可以从 nvidia 下载那个组合,不管这意味着什么)。我正在尝试恢复,但我在退出时遇到了很多麻烦,我非常接近于擦除并重新安装 ubuntu 并从那里开始。我有所有的命令,认为它可能会更容易,但我不确定这是否能解决它。(例如 cudnn-9.0-linux-x64-v7.1)

EDIT3:回来回应这个。我写了一个要点,说明我必须做什么才能让我的 GPU 在 ubuntu 16.04 中为我的主机工作,但是我没有在 docker 中测试它,这是它的要点。

https://gist.github.com/onaclov2000/c22fe1456ffa7da6cebd67600003dffb

复制粘贴到这里:

最后,我更新到 18.04,但没有再追究这一切,所以我将在上面的要点上更新 18.04 版本,因为我继续前进。

0 投票
1 回答
6113 浏览

docker - Can nvidia-docker be run without a GPU?

The official PyTorch Docker image is based on nvidia/cuda, which is able to run on Docker CE, without any GPU. It can also run on nvidia-docker, I presume with CUDA support enabled. Is it possible to run nvidia-docker itself on an x86 CPU, without any GPU? Is there a way to build a single Docker image that takes advantage of CUDA support when it is available (e.g. when running inside nvidia-docker) and uses the CPU otherwise? What happens when you use torch.cuda from inside Docker CE? What exactly is the difference between Docker CE and why can't nvidia-docker be merged into Docker CE?

0 投票
2 回答
2332 浏览

docker - 在 nvidia docker 中使用 nvenc 运行 ffmpeg

使用 nvidia-docker在docker 容器中安装了Nvidia Video Codec SDK 8.2 + ffmpeg但是当我运行它时

我收到了这个错误

无法加载 libnvidia-encode.so.1

nvenc 所需的最低 Nvidia 驱动程序是 390.25 或更高版本 初始化输出流时出错 0:0 - 打开输出流 #0:0 的编码器时出错 - 可能是不正确的参数,例如 bit_rate、rate、width 或 height

否则nvidia-smi显示这个

在此处输入图像描述

这个gpu使用的是GeForce 1050 Ticuda版本是9.0

0 投票
0 回答
286 浏览

docker - 为什么 docker 在守护进程模式 (-d) 下运行获得权限被拒绝 (selinux) 而不是在交互模式下 (-ti)

问题:

有人可以向我解释为什么在守护进程模式下运行容器而不是交互模式下应用 selinux 规则吗?

用例:

我正在运行一个支持 nvidia-gpu 的 docker 容器。

当我尝试以交互模式运行它时,一切正常:

但是当我想在守护进程模式下运行它时,selinux 似乎阻止了它:

当然,如果我禁用 selinux 一切正常:

0 投票
1 回答
584 浏览

docker - 首次运行 nvidia-docker2 容器非常慢

在 EC2 p2.xlarge 实例上运行启用 GPU 的 docker 容器时,我在容器开始运行之前遇到了 30 到 90 秒的延迟。后续容器快速启动(延迟 1 秒)。

EC2 运行 ubuntu 18.04,NVIDIA 驱动程序版本 396.54 和 nvidia-docker2(遵循官方安装指南:https ://github.com/NVIDIA/nvidia-docker )

我正在使用最新的官方 CUDA 映像进行测试: docker run --rm nvidia/cuda nvidia-smi

我的机器上启用了持久模式。如https://github.com/NVIDIA/nvidia-docker/wiki/Frequently-Asked-Questions#how-do-i-install-the-nvidia-driver中所述, “为什么我的容器从 2.0 开始很慢? " 它应该是解决方案,但对我不起作用。

任何可能导致延迟以及如何解决它的想法都值得赞赏。

0 投票
1 回答
781 浏览

amazon-web-services - sagemaker 是否默认使用 nvidia-docker 或 docker runtime==nvidia 或用户需要手动设置?

如问题中所述,“sagemaker 默认使用 nvidia-docker 或 docker runtime==nvidia 还是用户需要手动设置?”

一些常见的错误消息显示为“CannotStartContainerError。请确保变体 variant-name-1 的模型容器在使用 'docker run serve' 调用时正确启动。” 并且它没有显示为与 nividia 驱动程序一起运行。

那么,我们需要手动设置吗?

0 投票
1 回答
768 浏览

windows - 我可以在 docker 容器内映射主机(windows)的 gpu 驱动程序吗?

我正在尝试在需要 GPU 访问的 docker 容器内执行代码库(由 facebook 检测和跟踪)。我的 docker 映像是基于 linux 的,安装了 CUDA 工具包,但是我在 proc 文件系统中看不到任何 GPU 设备。

主机是安装了 CUDA 9 工具包和驱动程序的 windows。当我尝试执行代码时,它说:

在搜索时,我意识到,我可以利用 nvidia-docker 插件将主机 nvidia 驱动程序映射到容器操作系统,但从外观上看,我找不到任何对 windows 的支持。

有没有其他方法可以在我的 Windows 操作系统上执行 docker 容器内的代码库?