我正在远程访问高性能计算节点。我不确定 NVIDIA 集体通信库 (NCCL) 是否安装在我的目录中?有没有办法检查NCCL
问问题
5315 次
2 回答
6
您可以尝试locate nccl| grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'
,或者torch.cuda.nccl.version()
如果您使用 PyTorch
检查此链接命令备忘单:检查已安装软件/库/工具的版本在 Ubuntu 上进行深度学习
对于locate
有时没有可用的容器,可以将其替换为ldconfig -v
:
ldconfig -v | grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'
于 2021-04-07T11:29:24.483 回答
-2
您通常可以在命令行中执行此操作:
nvcc --version
您可能必须运行:
sudo apt install nvidia-cuda-toolkit
也。
正如其他回答者提到的,您可以执行以下操作:
torch.cuda.nccl.version()
在火炬中。复制粘贴到你的终端:
python -c "import torch;print(torch.cuda.nccl.version())"
我确信在 tensorflow 中有类似的东西。
于 2021-07-22T17:34:12.430 回答