cuda - 无法运行查询 NVML 的 CUDA 代码 - 有关 libnvidia-ml.so 的错误

Question

最近有同事需要使用NVML查询设备信息，于是下载了Tesla开发包3.304.5，将文件nvml.h复制到/usr/include。为了测试，我在 tdk_3.304.5/nvml/example 中编译了示例代码，它运行良好。

一个周末，系统发生了一些变化（我无法确定发生了什么变化，而且我不是唯一可以访问机器的人），现在任何使用 nvml.h 的代码（例如示例代码）都失败并出现以下错误：

Failed to initialize NVML:
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
WARNING:

You should always run with libnvidia-ml.so that is installed with your NVIDIA Display Driver. By default it's installed in /usr/lib and /usr/lib64. libnvidia-ml.so in TDK package is a stub library that is attached only for build purposes (e.g. machine that you build your application doesn't have to have Display Driver installed).
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

但是，我仍然可以运行 nvidia-smi 并读取有关我的 K20m 状态的信息，据我所知，nvidia-smi 只是对 nvml.h 的一组调用。我收到的错误消息有点神秘，但我相信它告诉我 nvidia-ml.so 文件需要与我在系统上安装的 Tesla 驱动程序相匹配。为了确保一切正确，我重新下载了 CUDA 5.0 并安装了驱动程序、CUDA 运行时和测试文件。我确信 nvidia-ml.so 文件与驱动程序匹配（两者都是 304.54），所以我很困惑可能出了什么问题。我可以使用 nvcc 编译和运行测试代码，也可以运行我自己的 CUDA 代码，只要它不包含 nvml.h。

有没有人遇到过这个错误或者有任何关于纠正这个问题的想法？

$ ls -la /usr/lib/libnvidia-ml*
lrwxrwxrwx. 1 root root     17 Jul 19 10:08 /usr/lib/libnvidia-ml.so -> libnvidia-ml.so.1
lrwxrwxrwx. 1 root root     22 Jul 19 10:08 /usr/lib/libnvidia-ml.so.1 -> libnvidia-ml.so.304.54
-rwxr-xr-x. 1 root root 391872 Jul 19 10:08 /usr/lib/libnvidia-ml.so.304.54

$ ls -la /usr/lib64/libnvidia-ml*
lrwxrwxrwx. 1 root root     17 Jul 19 10:08 /usr/lib64/libnvidia-ml.so -> libnvidia-ml.so.1
lrwxrwxrwx. 1 root root     22 Jul 19 10:08 /usr/lib64/libnvidia-ml.so.1 -> libnvidia-ml.so.304.54
-rwxr-xr-x. 1 root root 394792 Jul 19 10:08 /usr/lib64/libnvidia-ml.so.304.54

$ cat /proc/driver/nvidia/version 
NVRM version: NVIDIA UNIX x86_64 Kernel Module  304.54  Sat Sep 29 00:05:49 PDT 2012
GCC version:  gcc version 4.4.7 20120313 (Red Hat 4.4.7-3) (GCC) 

$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2012 NVIDIA Corporation
Built on Fri_Sep_21_17:28:58_PDT_2012
Cuda compilation tools, release 5.0, V0.2.1221

$ whereis nvml.h
nvml: /usr/include/nvml.h

$ ldd example
        linux-vdso.so.1 =>  (0x00007fff2da66000)
        libnvidia-ml.so.1 => /usr/lib64/libnvidia-ml.so.1 (0x00007f33ff6db000)
        libc.so.6 => /lib64/libc.so.6 (0x000000300e400000)
        libpthread.so.0 => /lib64/libpthread.so.0 (0x000000300ec00000)
        libdl.so.2 => /lib64/libdl.so.2 (0x000000300e800000)
        /lib64/ld-linux-x86-64.so.2 (0x000000300e000000)

编辑：解决方案是删除所有额外的 libnvidia-ml.so 实例。出于某种原因，他们有很多。

$ sudo find / -name 'libnvidia-ml*'
/usr/lib/libnvidia-ml.so.304.54
/usr/lib/libnvidia-ml.so
/usr/lib/libnvidia-ml.so.1
/usr/opt/lib/libnvidia-ml.so
/usr/opt/lib/libnvidia-ml.so.1
/usr/opt/lib64/libnvidia-ml.so
/usr/opt/lib64/libnvidia-ml.so.1
/usr/opt/nvml/lib/libnvidia-ml.so
/usr/opt/nvml/lib/libnvidia-ml.so.1
/usr/opt/nvml/lib64/libnvidia-ml.so
/usr/opt/nvml/lib64/libnvidia-ml.so.1
/usr/lib64/libnvidia-ml.so.304.54
/usr/lib64/libnvidia-ml.so
/usr/lib64/libnvidia-ml.so.1
/lib/libnvidia-ml.so.old
/lib/libnvidia-ml.so.1

score 6 · Accepted Answer

您收到此错误是因为尝试使用 nvml 的应用程序正在加载位于以下位置的存根库：

...tdk_install_path/lib64/libnvidia-ml.so

而不是一个：

/usr/lib64/libnvidia-ml.so

LD_LIBRARY_PATH当我将存根库路径添加到我的环境变量时，我能够重现您的错误。所以这是一个可能的错误来源，如果有人将 tdk 分发附带的存根库的路径添加到您的LD_LIBRARY_PATH环境变量中，但可能不是发生这种情况的唯一方式。如果有人以不寻常的方式将存根库复制到某个系统路径，那也可能是一个问题。

您需要尝试找出为什么您的系统加载该存根库来代替正确的/usr/lib64. 或者，出于发现目的，您可以尝试删除系统上任何位置的存根库的所有实例（将正确的库/usr/lib单独保留/usr/lib64），您应该能够观察到正确的行为。

score 1 · Accepted Answer

我使用 Windows 10 在 GTX 1070 上以这种方式解决了这个问题：转到设备管理器，选择有问题的 GPU，禁用 GPU 并重新启用。

score 0 · Accepted Answer

我在使用 EWBF Cuda Miner for zCash 时遇到了相同或类似的问题。

这是一种为 WIN10 自动实现 Pro7ech 的答案（对我有用）的方法：

如果您还没有安装 WDK for Windows 10：这将使您能够使用 devcon.exe，它允许通过批处理脚本操作设备： https ://docs.microsoft.com/en-us/windows-硬件/驱动程序/下载-the-wdk

如果您没有使用 C++ 工作负载进行桌面开发的 Visual Studio，您可能还需要 Windows SDK： https ://developer.microsoft.com/en-us/windows/downloads/windows-10-sdk

为了方便起见，您可能需要将安装路径添加到 PATH 环境变量中： https ://www.howtogeek.com/118594/how-to-edit-your-system-path-for-easy-command-line -使用权/

Devcon.exe 为我安装在这里：

C:\Program Files (x86)\Windows Kits\10\Tools\x64

因此，现在在 cmd.exe 提示符下运行此命令或类似命令以获取设备 ID：

devcon findall * | find /i "nvidia"

这是我的样子：

C:\Users\Soenhay>devcon findall * | find /i "nvidia"
HDAUDIO\FUNC_01&VEN_10DE&DEV_0083&SUBSYS_38426674&REV_1001\5&1C277AD4&0&0001: NVIDIA High Definition Audio
SWD\MMDEVAPI\{0.0.0.00000000}.{574980C3-9747-42EF-A78C-4C304E070B81}: SAMSUNG (NVIDIA High Definition Audio)
ROOT\UNNAMED_DEVICE\0000                                    : NVIDIA Virtual Audio Device (Wave Extensible) (WDM)
PCI\VEN_10DE&DEV_1B81&SUBSYS_66743842&REV_A1\4&1F1337ch33s3&0&0000: NVIDIA GeForce GTX 1070

从那我看到我的图形设备ID是：

PCI\VEN_10DE&DEV_1B81&SUBSYS_66743842&REV_A1\4&1F1337ch33s3&0&0000

因此，我使用以下内容创建了一个批处理文件来禁用和重新启用驱动程序：

devcon disable "@PCI\VEN_10DE&DEV_1B81&SUBSYS_66743842&REV_A1\4&1F1337ch33s3&0&0000"
devcon enable "@PCI\VEN_10DE&DEV_1B81&SUBSYS_66743842&REV_A1\4&1F1337ch33s3&0&0000"

现在，当我在启动矿工时收到 NVML 错误时，我只需运行这个批处理文件并修复它。您也可以每次都将这两行添加到 start.bat 文件的开头来执行此操作，但我发现现在每次重新启动矿工时间时，错误并不总是发生。

参考：

注意：该命令应该在设备 ID 的开头有 @ 符号。批处理脚本应以管理员身份运行。

score -2 · Accepted Answer

-2

我遇到了同样的错误。

找到一个解决方案是运行命令：

nvidia-uninstall

于 2018-10-13T02:51:02.400 回答

cuda - 无法运行查询 NVML 的 CUDA 代码 - 有关 libnvidia-ml.so 的错误

4 回答 4

Related

Reference