0

我一直在使用 GPU 在 Azure 上创建一些 Ubuntu DSVM 和 DLVM,但我不断收到间歇性错误。这些通过 nvidia-smi 表现得很慢或出现以下错误: 2018/01/11 19:42:33 Error: nvml: Driver/library version mismatch

如果我尝试运行nvidia-sminvidia-docker. 重新启动通常会修复它,但它可以重新出现。

这听起来像是间歇性错误吗?我可以做些什么来减轻这种情况吗?

4

1 回答 1

1

NVIDIA 刚刚为 Azure 中使用的 GPU 发布了新版本的 GPU 驱动程序。Ubuntu DSVM 配置为自动安装更新,因此这些更新将在后台为您安装。但是,问题在于驱动程序已编译到内核中,因此您必须重新启动才能获得新的驱动程序。消息驱动程序/库版本不匹配意味着内核中的版本无法使用已安装的库(因为它们已升级)。这就是为什么重新启动通常会修复它的原因。

您可能会面临第二个问题:Azure 前几天发布了一个与 387 版本的 GPU 驱动程序不兼容的新内核。默认情况下,您不会在 DSVM 上获得此驱动程序,但如果您安装了其他软件包,您可能会获得此驱动程序。这个错误是不同的——像nvidia-smi 不能与 nvidia 模块通信修复它的唯一方法是 (1) 使用apt updateapt upgrade获取最新的内核,然后重新启动,以及 (2) 使用apt install nvidia-384安装不同的驱动程序。

于 2018-01-12T20:44:38.537 回答