5

我刚刚在具有 2 个 GPU(Nvidia Tesla K80)的 Google Compute Engine 上启动了一个实例。刚开始,我可以看到nvidia-smi其中一个已经被充分利用了。

我检查了正在运行的进程列表,根本没有任何运行。这是否意味着 Google 已将相同的 GPU 出租给其他人?

在此处输入图像描述

这一切都在这台机器上运行:

No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 16.04.5 LTS
Release:    16.04
Codename:   xenial

在此处输入图像描述

4

2 回答 2

6

启用“持久模式”nvidia-smi -pm 1可能会解决问题。ECC 与非持久性模式相结合可以实现 100% 的 GPU 利用率。

或者,您可以使用 禁用 ECC nvidia-smi -e 0

注意:我不确定性能是否真的更差。我记得我能够训练 ML 模型,尽管 GPU 利用率为 100%,但我不知道它是否更慢。

于 2018-11-27T10:24:56.450 回答
0

我建议您根据需要在 Google 问题跟踪器上报告并创建此问题以进行调查。请在那里提供您的项目编号和实例名称。请遵循此URL,使您能够在 Google 问题跟踪器中创建私有文件。

于 2018-10-18T15:06:39.613 回答