我正在尝试在集群上执行 MPI 和 CUDA 代码。该代码在单机上运行良好,但是当我尝试在集群上执行它时出现错误:
加载共享库时出错:libcudart.so.4:无法打开共享对象文件:没有这样的文件或目录
我检查了我的 PATH 和 LD_PATH ,它看起来没问题。我有一个 .bashrc 文件,其中包含以下条目 -
导出 PATH=$PATH:/usr/local/lib/:/usr/local/lib/openmpi:/usr/local/cuda/bin 导出 LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib:/usr/local/lib /openmpi/:/usr/local/cuda/lib
所有机器都安装了相同的 CUDA 和 OpenMPI。
我在 /etc/ld.so.conf 中也有 /usr/local/cuda/lib
谁能帮我这个。这个问题真的很烦人。
谢谢。