问题标签 [nvidia-smi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-ec2 - 在 nvidia-smi 中从 type-C 切换到 type-G
我正在使用预先安装了 nvidia 驱动程序的 ec2 g4dn 实例,当我执行 nvidia-smi 时,它显示 gpu 进程正在运行并且正在使用“type-C”,我想将它用于图形渲染目的,所以我想使用'type-G',因为我认为这样会更快。我怎么做?我正在使用的 AMI - 深度学习 AMI ubuntu 18.04
bash - nvidia-smi 将clocks_throttle_reasons.active 位掩码变成英文?
这有办法让clocks_throttle_reasons.active 的位掩码变成简单的英文吗?某处可能有一个清单吗?请在下面找到我的命令
上面的代码返回下面的0x0000000000000004
位掩码,查看我的数据表明它是一个高功耗问题。
提前致谢!
python - 以下正则表达式的最简化形式/从 nvidia-smi 输出中提取所有值
我正在尝试在包含 nvidia-smi 输出的 Python 中分析非常大的文本字符串,但我真的想花更多的时间来分析数据,而不是研究我的正则表达式技能。我得到了如下的正则表达式,但它在某些行中需要永远(它可能是某些行中输入数据的变化),但我认为我的正则表达式模式也可能是计算密集型的。
此模式匹配表中的第三行。
下面这个⬇️
它适用于大多数行,但随机挂起某些行。这个正则表达式的更简化版本是什么?或者也许更好的问题是获取此表中每一行的每个值(每个 GPU 的相应指标)的最佳方法是什么?
截断的输入字符串在这里
PS我正在尝试提取以下值
bash - watch 命令不适用于特殊字符和引号
上述命令用于将两个服务器 GPU 统计信息水平堆叠在一起。它可以在没有 watch 命令的情况下工作,但会出现以下错误
memory - 给定参数数量,如何估计一个 pytorch 模型所需的 VRAM?
我正在尝试估算完全连接的模型所需的 VRAM,而无需在 pytorch 中构建/训练模型。
我非常接近这个公式:
这个示例模型有 384048000 个参数,但我已经在具有不同参数大小的不同模型上进行了测试。
结果相当准确。但是,估计只考虑了 pytorch 会话 VRAM,而不是驱动程序/cuda 缓冲区 VRAM 量。这是估计(使用公式)与经验结果(在构建/训练模型后使用 nvidia-smi)
关于如何估计 nvidia-smi 输出中显示的额外 VRAM 的任何想法?
ubuntu - nvidia-smi 命令是做什么的?
我想知道什么
python - Google Colab:Nvidia-Smi 和 Libtorch 不再兼容
这个问题是新的,以前从未发生过,因此可能已经更新了 nvidia 驱动程序或 libtorch。问题:我正在使用 Google Colab 来获取额外的 GPU,并且想要安装一个需要 libtorch 的程序。因此,过去几周安装工作正常,但是从今天开始,无法安装该程序。我已经尝试重新启动几次,重新启动等,但似乎没有任何效果。我还为 cuda 11.3 下载了新的 libtorch 版本并更新了 cuda,以便运行时在 cuda 11.3 上运行。当我打电话时
它像往常一样给出信息。尽管如此,在根据需要添加 libtorch 作为环境变量之后,以便使用 libtorch
和
突然显示“无法初始化 NVML:驱动程序/库版本不匹配”。由于发生这种情况,我无法再安装该程序。
因此,我安装了 rustc(因为程序需要 rustup)并将其添加到路径中
我将 Libtorch 添加为环境变量。我尝试货物安装程序。它通常工作正常,现在失败,抛出错误消息:
gpu - 如何解释显示风扇速度超过 100% 的 NVIDIA SMI 输出
我一直在研究历史上的 NVIDIA SMI 输出。我还没有真正看到过价值超过 100% 的风扇速度。但是在我正在使用的一个新数据集中,我看到一些读数超过 100%。我如何解释这个?
从官方文档:
风扇速度值是设备风扇当前打算运行的最大速度的百分比。它的范围从 0 到 100%。注意:报告的速度是预期的风扇速度。如果风扇被物理阻塞且无法旋转,则此输出将与实际风扇速度不匹配。许多部件不报告风扇速度,因为它们依赖于通过周围外壳中的风扇进行冷却。适用于所有带有专用风扇的离散产品。
尽管如此,我在 2021 年 9 月至 2021 年 10 月之间的某个时间收集的读数中看到了以下内容。
此外,这通常发生在特定主机的 GPU 索引 5 上,从中可以假设什么?
cmd - 初始化 NVML 失败:未找到
我在运行“nvidia-smi”命令时遇到问题 - 每当我尝试运行时。我收到以下错误: 无法初始化 NVML:未找到