我正在尝试按照https://cloud.google.com/container-optimized-os/docs/how-to/run-gpus上的说明在带有 GPU 的 GCE 上设置容器优化操作系统(COS). 创建虚拟机后,它会说 ssh in and run cos-extensions install gpu
。这样可行; 您可以在安装过程中看到它运行nvidia-smi
打印出驱动程序版本 (440.33.01) 并连接到卡。
但是它将 nvidia bins 和 libs/var/lib/nvidia
安装在 中,就像noexec
在这个操作系统中一样安装(它非常锁定)。这意味着所有库或实用程序都不起作用。当您将它们安装到 docker 容器时,它们也无法在那里工作;他们仍然是noexec。
我发现的唯一解决方法是将整个/var/lib/nvidia
目录复制到 tmpfs 暂存盘并从那里使用它。我是用错了,还是只是坏了?