问题标签 [nvidia-smi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
23 浏览

amazon-ec2 - 在 nvidia-smi 中从 type-C 切换到 type-G

我正在使用预先安装了 nvidia 驱动程序的 ec2 g4dn 实例,当我执行 nvidia-smi 时,它显示 gpu 进程正在运行并且正在使用“type-C”,我想将它用于图形渲染目的,所以我想使用'type-G',因为我认为这样会更快。我怎么做?我正在使用的 AMI - 深度学习 AMI ubuntu 18.04

0 投票
0 回答
70 浏览

bash - nvidia-smi 将clocks_throttle_reasons.active 位掩码变成英文?

这有办法让clocks_throttle_reasons.active 的位掩码变成简单的英文吗?某处可能有一个清单吗?请在下面找到我的命令

上面的代码返回下面的0x0000000000000004位掩码,查看我的数据表明它是一个高功耗问题。

提前致谢!

0 投票
1 回答
70 浏览

python - 以下正则表达式的最简化形式/从 nvidia-smi 输出中提取所有值

我正在尝试在包含 nvidia-smi 输出的 Python 中分析非常大的文本字符串,但我真的想花更多的时间来分析数据,而不是研究我的正则表达式技能。我得到了如下的正则表达式,但它在某些行中需要永远(它可能是某些行中输入数据的变化),但我认为我的正则表达式模式也可能是计算密集型的。

此模式匹配表中的第三行。

下面这个⬇️

它适用于大多数行,但随机挂起某些行。这个正则表达式的更简化版本是什么?或者也许更好的问题是获取此表中每一行的每个值(每个 GPU 的相应指标)的最佳方法是什么?

截断的输入字符串在这里

PS我正在尝试提取以下值

0 投票
1 回答
72 浏览

bash - watch 命令不适用于特殊字符和引号

上述命令用于将两个服务器 GPU 统计信息水平堆叠在一起。它可以在没有 watch 命令的情况下工作,但会出现以下错误

0 投票
0 回答
52 浏览

memory - 给定参数数量,如何估计一个 pytorch 模型所需的 VRAM?

我正在尝试估算完全连接的模型所需的 VRAM,而无需在 pytorch 中构建/训练模型。

我非常接近这个公式:

这个示例模型有 384048000 个参数,但我已经在具有不同参数大小的不同模型上进行了测试。

结果相当准确。但是,估计只考虑了 pytorch 会话 VRAM,而不是驱动程序/cuda 缓冲区 VRAM 量。这是估计(使用公式)与经验结果(在构建/训练模型后使用 nvidia-smi)

关于如何估计 nvidia-smi 输出中显示的额外 VRAM 的任何想法?

0 投票
2 回答
1510 浏览

ubuntu - nvidia-smi 命令是做什么的?

我想知道什么

0 投票
0 回答
88 浏览

python - Google Colab:Nvidia-Smi 和 Libtorch 不再兼容

这个问题是新的,以前从未发生过,因此可能已经更新了 nvidia 驱动程序或 libtorch。问题:我正在使用 Google Colab 来获取额外的 GPU,并且想要安装一个需要 libtorch 的程序。因此,过去几周安装工作正常,但是从今天开始,无法安装该程序。我已经尝试重新启动几次,重新启动等,但似乎没有任何效果。我还为 cuda 11.3 下载了新的 libtorch 版本并更新了 cuda,以便运行时在 cuda 11.3 上运行。当我打电话时

它像往常一样给出信息。尽管如此,在根据需要添加 libtorch 作为环境变量之后,以便使用 libtorch

突然显示“无法初始化 NVML:驱动程序/库版本不匹配”。由于发生这种情况,我无法再安装该程序。

因此,我安装了 rustc(因为程序需要 rustup)并将其添加到路径中

我将 Libtorch 添加为环境变量。我尝试货物安装程序。它通常工作正常,现在失败,抛出错误消息:

0 投票
0 回答
32 浏览

gpu - 如何解释显示风扇速度超过 100% 的 NVIDIA SMI 输出

我一直在研究历史上的 NVIDIA SMI 输出。我还没有真正看到过价值超过 100% 的风扇速度。但是在我正在使用的一个新数据集中,我看到一些读数超过 100%。我如何解释这个?

官方文档

风扇速度值是设备风扇当前打算运行的最大速度的百分比。它的范围从 0 到 100%。注意:报告的速度是预期的风扇速度。如果风扇被物理阻塞且无法旋转,则此输出将与实际风扇速度不匹配。许多部件不报告风扇速度,因为它们依赖于通过周围外壳中的风扇进行冷却。适用于所有带有专用风扇的离散产品。

尽管如此,我在 2021 年 9 月至 2021 年 10 月之间的某个时间收集的读数中看到了以下内容。

此外,这通常发生在特定主机的 GPU 索引 5 上,从中可以假设什么?

0 投票
0 回答
28 浏览

cmd - 初始化 NVML 失败:未找到

我在运行“nvidia-smi”命令时遇到问题 - 每当我尝试运行时。我收到以下错误: 无法初始化 NVML:未找到

0 投票
1 回答
14 浏览

memory - 为什么 nvidia-smi 将进程名称显示为“-”并且不允许我杀死 -9 它的 PID?

当我输入 nvidia-smi 时,我得到以下结果:

在此处输入图像描述

kill -9 25585 将不起作用,相反,我必须 ps -ef 并杀死每个 python 进程以释放 Nvidia GPU。之前,它用于显示实际的进程名称

有人可以解释为什么并且不必每次都这样做吗?