在过去的几个月里,我一直在使用谷歌云平台,没有任何问题。但是,我遇到了一个相当混乱的问题。我连接了一个 gpu,我们将其用于我们的深度学习模型。出于某种原因,此 GPU 不再显示在实例上。
当我跑
from tensorflow.python.client import device_lib
device_lib.list_local_devices()
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 963983047914027708, name: "/device:XLA_CPU:0"
device_type: "XLA_CPU"
memory_limit: 17179869184
locality {
}
incarnation: 11201145405798739252
physical_device_desc: "device: XLA_CPU device"]
我得到的输出表明没有可用的 GPU。当我尝试训练模型时,很明显它没有使用 GPU,因为训练速度显着降低。
我最近所做的唯一更改是安装 miniconda 并为不同的项目创建一个新的 conda env;有什么方法可以干扰我当前代码识别 GPU 的能力吗?
在创建 conda env 的过程中,我遇到了当前 cuda 驱动程序和 cuda 版本的一些问题,但所有这些都发生在一个专用的 conda env 中,所以我不明白我怎么会搞砸一些会防止识别GPU。
在此先感谢,诺亚