3

我正在尝试在集群上执行 MPI 和 CUDA 代码。该代码在单机上运行良好,但是当我尝试在集群上执行它时出现错误:

加载共享库时出错:libcudart.so.4:无法打开共享对象文件:没有这样的文件或目录

我检查了我的 PATH 和 LD_PATH ,它看起来没问题。我有一个 .bashrc 文件,其中包含以下条目 -

导出 PATH=$PATH:/usr/local/lib/:/usr/local/lib/openmpi:/usr/local/cuda/bin 导出 LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib:/usr/local/lib /openmpi/:/usr/local/cuda/lib

所有机器都安装了相同的 CUDA 和 OpenMPI。

我在 /etc/ld.so.conf 中也有 /usr/local/cuda/lib

谁能帮我这个。这个问题真的很烦人。

谢谢。

4

1 回答 1

5

如果您要在集群上发送批处理作业,请添加类似的命令

echo $LD_LIBRARY_PATH 
ldd ./your_app 

到您的批处理脚本。这应该有助于调试问题。

还要确保在 mpirun 中导出环境变量。例如,在 OpenMPI 中,您可以使用

mpirun -x LD_LIBRARY_PATH ...
于 2012-05-01T09:40:36.630 回答