我正在使用该"scaleTier": "BASIC_GPU"
设置在 AI Platform 上运行 tensorflow 训练作业。我的理解是,此设置使用单个 Tesla K80 GPU 来完成我的工作。
在另一个作业已经运行时创建新作业似乎会导致新创建的作业被放入队列中,直到正在运行的作业完成。当我检查新作业的日志时,我看到以下消息:
This job is number 1 in the queue and requires 8.000000 CPUs and 1 K80 accelerators. The project is using 8.000000 CPUs out of 450 allowed and 1 K80 accelerators out of 0 TPU_V2_POD, 0 TPU_V3_POD, 1 K80, 1 P100, 1 V100, 4 P4, 4 T4, 8 TPU_V2, 8 TPU_V3 allowed across all regions.The project is using 8.000000 CPUs out of 20 allowed and 1 K80 accelerators out of 0 TPU_V2_POD, 0 TPU_V3_POD, 1 K80, 1 P100, 1 P4, 1 T4, 1 V100, 8 TPU_V2, 8 TPU_V3 allowed in the region us-central1.
这个AI Platform 文档似乎说我的项目应该能够同时使用多达 30 个 K80 GPU。
为什么我什至不能同时使用 2?
我需要做些什么来将我的限制增加到预期的 30 吗?