1

我有一个自定义容器(源自nvidia/cuda:9.0-runtime)来在 sagemaker 上运行培训。但是在启动时我收到了错误CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:32,显然是想告诉我我的 cuda 版本不支持图形驱动程序(......将两个版本号与错误消息一起公开......),但我不能弄清楚如何找出容器中安装的显示驱动程序。我所能找到的只是它说 sagemaker 有 nvidia-docker buildin。我试图nvidia-smi在错误发生之前触发,但容器中不知道该命令。有一句神秘的话

"If you plan to use GPU devices for model inferences (by specifying 
GPU-based ML compute instances in your CreateEndpointConfig request),
make sure that your containers are nvidia-docker compatible."

我很确定是这种情况,但是没有复选框或任何东西可以切换“使用主机 GPU 访问运行此容器”。有什么想法我可以继续吗?

4

1 回答 1

1

嗬!发现了问题,我选择ml.m4.xlarge了实例类型,显然那些没有 GPU / 没有共享它。切换到ml.p2.xlarge解决问题。

于 2018-06-14T14:09:31.107 回答