c++ - 尽管通过了所有演示测试，SuiteSparse CHOLMOD 仍抛出 gpu_memorysize 错误

Question

Ubuntu 16.04LTS；套件稀疏 4.5.5；CUDA 8.0.61（性能升级）；英伟达驱动 384.98；

我已将 GPU 加速 CHOLMOD 成功实施到我的代码中，并且可以正常工作几个月。然后最近出乎意料（源代码没有更改），我开始在输出中看到这些错误：

GPU failure in cholmod_gpu: gpu_memorysize 8.38861e+06 0 MB
CHOLMOD error: gpu memorysize failure
. file: ../GPU/cholmod_gpu.c line: 384
CHOLMOD error: CUBLAS initialization. file: ../GPU/cholmod_gpu.c line: 433
CHOLMOD error: cudaMemcpy(d_Ls). file: ../Supernodal/../GPU/t_cholmod_gpu.c line: 129
CHOLMOD error: CUDA stream. file: ../Supernodal/../GPU/t_cholmod_gpu.c line: 140

我怀疑第三方库在无人看管的情况下自行更新。但是我对 CHOLMOD/Demo/cholmod_l_demo（导出 CHOLMOD_USE_GPU=1）的测试证明 CHOLMOD 本身工作得非常好，并且正在使用完整的 GPU（使用 nvidia-smi 监控活动）。同样，Cuda/samples 都工作得很好。我已经清除并重新安装了所有内容，包括 Cuda、Nvidia 驱动程序和 SuiteSparse。我尝试了 Cuda 8.0 和 Cuda 9.0 的各种组合。无济于事，Cuda/samples 和 CHOLMOD/Demos 仍然可以正常工作，但我的 CHOLMOD 实现抛出了同样的错误。

我已将问题追溯到 cudaMemGetInfo() 函数。出于某种原因，它在 GPU 上报告 0 个可用字节导致第一个错误 (gpu_memorysize)！其余的错误似乎从第一个级联。CHOLMOD/Demo/cholmod_l_demo 脚本中没有发生此错误，这表明我的实现有问题。然而，我的实施没有任何改变。有谁知道为什么 cudaMemGetInfo() 会报告 0 个可用字节？我认为这个问题的答案将有助于指导我找到解决方案。

我查看了无人值守的升级历史记录，似乎在我开始看到错误时更新了一些 linux-headers 和 nvidia 驱动程序。但我不太确定 nvidia 驱动程序更新是罪魁祸首，因为 CHOLMOD/Demo/cholmod_l_demo 工作得很好。所以我怀疑这可能是一个 linux-headers 问题......

我的实现分布在多个文件中，因此可能值得查看Github 提交。但正如我所提到的，与过去几个月 CHOLMOD gpu 加速工作时相比，我没有更改任何源文件。

任何建议都非常感谢！

score 0 · Accepted Answer

cudaMemGetInfo() 报告 0 个空闲字节的原因是因为我的程序对 libcublas 和 libcudart 没有可执行权限。一旦我运行我的程序并在它前面加上“sudo”，GPU 就会被使用，CHOLMOD 就像几周前一样工作。

我不确定内核是否更改了权限，或者某些 .so 安装是否需要新权限。这有点神秘。但解决方案是使用“sudo”来运行程序。

c++ - 尽管通过了所有演示测试，SuiteSparse CHOLMOD 仍抛出 gpu_memorysize 错误

1 回答 1

Related

Reference