我有一个自定义容器(源自nvidia/cuda:9.0-runtime
)来在 sagemaker 上运行培训。但是在启动时我收到了错误CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:32
,显然是想告诉我我的 cuda 版本不支持图形驱动程序(......将两个版本号与错误消息一起公开......),但我不能弄清楚如何找出容器中安装的显示驱动程序。我所能找到的只是它说 sagemaker 有 nvidia-docker buildin。我试图nvidia-smi
在错误发生之前触发,但容器中不知道该命令。有一句神秘的话
"If you plan to use GPU devices for model inferences (by specifying
GPU-based ML compute instances in your CreateEndpointConfig request),
make sure that your containers are nvidia-docker compatible."
我很确定是这种情况,但是没有复选框或任何东西可以切换“使用主机 GPU 访问运行此容器”。有什么想法我可以继续吗?