python - 无法再找到附加到谷歌云实例的 GPU

Question

在过去的几个月里，我一直在使用谷歌云平台，没有任何问题。但是，我遇到了一个相当混乱的问题。我连接了一个 gpu，我们将其用于我们的深度学习模型。出于某种原因，此 GPU 不再显示在实例上。

当我跑

from tensorflow.python.client import device_lib
device_lib.list_local_devices()

[name: "/device:CPU:0"
 device_type: "CPU"
 memory_limit: 268435456
 locality {
 }
 incarnation: 963983047914027708, name: "/device:XLA_CPU:0"
 device_type: "XLA_CPU"
 memory_limit: 17179869184
 locality {
 }
 incarnation: 11201145405798739252
 physical_device_desc: "device: XLA_CPU device"]

我得到的输出表明没有可用的 GPU。当我尝试训练模型时，很明显它没有使用 GPU，因为训练速度显着降低。

我最近所做的唯一更改是安装 miniconda 并为不同的项目创建一个新的 conda env；有什么方法可以干扰我当前代码识别 GPU 的能力吗？

在创建 conda env 的过程中，我遇到了当前 cuda 驱动程序和 cuda 版本的一些问题，但所有这些都发生在一个专用的 conda env 中，所以我不明白我怎么会搞砸一些会防止识别GPU。

在此先感谢，诺亚

score 0 · Accepted Answer

使用 GPU 时，您需要考虑到存在一些限制，因此我建议您通读它们并尝试确定是否有任何限制影响了您的特定情况。据我所知，安装新库不会对无法识别 GPU 的代码产生任何影响。但是，如果您想恢复它们，可以参考此文档链接。

score 0 · Accepted Answer

原来问题在于我们使用的 docker 文件中已经更新了 tensorflow 的默认版本。新版本是 CPU 版本，默认情况下不会寻找 GPU

python - 无法再找到附加到谷歌云实例的 GPU

2 回答 2

Related

Reference