2

下午好。

我在尝试将 GPU(NVIDIA Tesla T4)添加到 GCP AI 平台笔记本实例时遇到了一个问题。

我想做的是用 GPU 启动一个实例。但它不起作用,GCP 说

此实例的区域、框架和机器类型没有可用的 GPU。

当我启动一个实例时,它说

riiid:区域 'projects/adept-rock-292801/zones/asia-northeast1-a' 没有足够的资源来满足请求。尝试不同的区域,或稍后再试。

出现问题


检查点 1

我检查了管理员配额,这是设置。我想这没有问题。

GPUs (all regions): limit 1
NVIDIA T4 GPUs - asia-northeast1: limit 1

检查点 2

到目前为止,我只创建了一个实例。所以没有其他实例使用配额限制。


检查点 3

以下链接说 NVIDIA Tesla T4 在 Zone 中可用asia-northeast1-a,所以我猜可用区不是这个问题的因素。

https://cloud.google.com/compute/docs/gpus/gpu-regions-zones


检查点 4

我的实例的机器类型现在是4 vCPUs, 15 GB RAM(* n1-standard-4),所以机器类型应该没有问题,根据以下链接。

https://cloud.google.com/compute/docs/gpus


为什么 GPU 在这种情况下不可用?有没有人给我一个提示来解决这个问题?

谢谢你。

4

1 回答 1

0

此问题已通过公共问题跟踪器案例解决,请点击此处。由于您仍然遇到它,您可以在那里发表评论并描述您遇到问题的方式。因此,案件将重新开庭。

但是,有一种解决方法。为了能够在创建后将 GPU 添加到 AI 平台 Notebook 实例,请按照以下步骤操作:

  1. 创建实例选择Python 3 (CUDA Toolkit 11.0)和选项 without GPU
  2. 转到计算引擎并选择您的虚拟机;
  3. 停止VM并单击编辑;
  4. Machine configuration下,转到GPU type并添加所需的 GPU 类型;
  5. 保存更改并启动您的虚拟机;
  6. SSH进入它,您将被提示安装nvidia驱动程序
  7. 如果没有提示,请使用以下命令安装驱动程序sudo /opt/deeplearning/install-driver.sh
  8. nvidia-smi用;确认驱动程序的安装

请注意以下注意事项:

  • 如果您有防火墙规则,则应将端口 22 列入白名单。您可以使用该命令gcloud compute firewall-rules create default-allow-ssh --allow tcp:22来执行此操作。
  • 强烈建议您将工作量分散到多个区域,在这里
  • 目前,您似乎在按需使用 GPU 实例而没有容量保证,因为该区域可能会被耗尽。出于这个原因,如果您想保证您的资源,您可以使用一个名为Reservations的功能,它可以确保资源在您需要时可用于您的工作负载;
于 2020-12-16T11:46:19.827 回答