我正在 Azure 中运行全新的 Windows Server 2019 数据科学虚拟机。我正在使用具有 Tesla K80 GPU 的 NC6_Promo 尺寸。部署完成后,我尝试使用以下 python 命令检查 CUDA 是否正常工作:
import torch
torch.cuda.is_available()
Out[3]: False
这将返回一个错误的语句,表明 CUDA 不可用。
使用 nvidia-smi 工具检查时,我得到以下响应:
Microsoft Windows [Version 10.0.17763.2300]
(c) 2018 Microsoft Corporation. All rights reserved.
C:\Users\administrator>nvidia-smi
Wed Dec 22 11:23:36 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 472.50 Driver Version: 472.50 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla K80 TCC | 00000001:00:00.0 Off | 0 |
| N/A 42C P8 28W / 149W | 9MiB / 11448MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
这告诉我 CUDA 版本 11.4 可用。
虚拟机的设备管理器还显示 Tesla K80 GPU 已安装并正常工作:
到目前为止我采取的步骤:
- 启用 nVidia 虚拟机扩展
- (重新)为 Tesla K80 安装了最新的 nVidia 驱动程序
- 将 CUDA 升级到 11.5 版
但是我仍然不能使用 PyTorch 的 GPU。我可以采取任何其他步骤来使其正常工作吗?这真的应该开箱即用。