2

在 GCP -> IAM & admin -> Quotas 页面上,us-central1 的服务“Compute Engine API NVidia V100 GPUs”显示限制为 4。但是当我使用以下命令在 GCP AI 平台上提交训练作业时,我收到一条错误消息允许的最大 V100 GPU 为 2。 在此处输入图像描述

这是命令:

gcloud beta ai-platform jobs submit training $JOB_NAME \
    --staging-bucket $PACKAGE_STAGING_PATH \
    --job-dir $JOB_DIR  \
    --package-path $TRAINER_PACKAGE_PATH \
    --module-name $MAIN_TRAINER_MODULE \
    --python-version 3.5 \
    --region us-central1 \
    --runtime-version 1.14 \
    --scale-tier custom \
    --master-machine-type n1-standard-8 \
    --master-accelerator count=4,type=nvidia-tesla-v100 \
    -- \
    --data_dir=$DATA_DIR \
    --initial_epoch=$INITIAL_EPOCH \
    --num_epochs=$NUM_EPOCHS

这是错误消息:

ERROR: (gcloud.beta.ai-platform.jobs.submit.training) RESOURCE_EXHAUSTED: Quota failure for project [PROJECT_ID]. The request for 4 V100 accelerators exceeds the allowed m
aximum of 16 TPU_V2, 16 TPU_V3, 2 P4, 2 V100, 40 K80, 40 P100, 8 T4. To read more about Cloud ML Engine quota, see https://cloud.google.com/ml-engine/quotas.
- '@type': type.googleapis.com/google.rpc.QuotaFailure
  violations:
  - description: The request for 4 V100 accelerators exceeds the allowed maximum of
      16 TPU_V2, 16 TPU_V3, 2 P4, 2 V100, 40 K80, 40 P100, 8 T4.
    subject: [PROJECT_ID]

这是Compute Engine 网页上的 GPU说明 8 个 NVIDIA® Tesla® V100 GPU 在区域us-central1-aus-central1-bus-central1-c和中可用us-central1-f。我的默认区域是us-central1-c.

我应该怎么做才能使用所有 4 个 V100 GPU 进行训练?谢谢。

更新 1(2020 年 1 月 14 日):在此页面上,它说明了需要增加的全局 GPU 配额以匹配每个区域的配额。但是我在配额页面上的任何地方都找不到它。

为了保护 Compute Engine 系统和用户,新项目具有全局 GPU 配额,这限制了您可以在任何受支持的区域中创建的 GPU 总数。当您申请 GPU 配额时,您必须为要在每个区域创建的 GPU 模型申请一个配额,并为所有区域中所有类型的 GPU 总数申请一个额外的全局配额。

更新 2(2020 年 1 月 14 日):我联系了 GCP 以增加全球 GPU 配额以匹配我的区域配额。他们回答说,对于某些项目,这是需要的,但对于我的项目,没有必要这样做。

4

2 回答 2

0

文档链接可能会阐明您的错误:

“您用于预测的 GPU 不计入 Compute Engine 的 GPU,并且 AI Platform Training 的配额不允许您访问任何使用 GPU 的 Compute Engine VM。如果您想使用 GPU 启动 Compute Engine VM ,您必须申请 Compute Engine GPU 配额,如 Compute Engine 文档中所述。”

于 2020-01-31T10:01:26.073 回答
0

谷歌人告诉我“有一个 V100 GPUS 配额,一个 V100 VWS GPUS 配额。你项目中的 VWS 配额只有 1。不确定这里需要哪一个,但这可能是根本原因。” 在他们调整配额后,现在我可以连接多达 8 个 V100 GPU 来进行训练作业。

于 2020-06-30T00:27:53.403 回答