amazon-sagemaker - sagemaker 上的 cuda / nvidia-driver 与自定义容器不匹配

Question

我有一个自定义容器（源自nvidia/cuda:9.0-runtime）来在 sagemaker 上运行培训。但是在启动时我收到了错误CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:32，显然是想告诉我我的 cuda 版本不支持图形驱动程序（......将两个版本号与错误消息一起公开......），但我不能弄清楚如何找出容器中安装的显示驱动程序。我所能找到的只是它说 sagemaker 有 nvidia-docker buildin。我试图nvidia-smi在错误发生之前触发，但容器中不知道该命令。有一句神秘的话

"If you plan to use GPU devices for model inferences (by specifying 
GPU-based ML compute instances in your CreateEndpointConfig request),
make sure that your containers are nvidia-docker compatible."

我很确定是这种情况，但是没有复选框或任何东西可以切换“使用主机 GPU 访问运行此容器”。有什么想法我可以继续吗？

score 1 · Accepted Answer

嗬！发现了问题，我选择ml.m4.xlarge了实例类型，显然那些没有 GPU / 没有共享它。切换到ml.p2.xlarge解决问题。

amazon-sagemaker - sagemaker 上的 cuda / nvidia-driver 与自定义容器不匹配

1 回答 1

Related

Reference