0

每当我尝试使用命令向 gcloud 提交训练作业时

gcloud ml-engine jobs submit training

它给出的配额错误是

The requested 60.0 CPUs exceeds the allowed maximum of 20.0.

即使我从未在命令中定义 60.0 CPU。根据谷歌文档,我们需要增加配额才能完成这项工作。有没有办法坚持配额 20.0 CPU 并在 GCP 上训练模型?

4

2 回答 2

1

我不确定这是否是您问题的解决方案,但是当我得到时我做了什么:

The requested N CPUs exceeds the allowed maximum of 20.0.

gcloud ai-platform jobs submit training. 根据这个这个链接,您可以将--scale-tier参数传递给submit training命令,该命令控制您的工作的一些规范,包括工人的数量。在这种情况下,如果您设置--scale-tier为 STANDARD、PREMIUM 或 CUSTOM,那么 CPU 工作人员将相应地扩展到新的数量(例如,在您的情况下它是 60.0 个 CPU)。

由于 BASIC 层是“单个工作实例”,因此只需切换到

gcloud ai-platform jobs submit training --scale-tier BASIC-[GPU|TPU]

应该解决这个配额问题。增加配额的观点是有效的,但据我所知,在你的情况下不需要更多的工人。

否则,如果你想加快训练速度,那么你应该查看 CUSTOM tier 和 workerCount 参数,它指定了要使用的工人数量(更多信息在这里)。

于 2020-09-08T22:50:22.610 回答
0

根据Cloud ML Engine 配额文档,AI Platform CPU 配额不计入 Compute Engine CPU 配额

有提到控制台可以请求某些配额,看起来AI Platform CPUs配额不是其中之一;因此,您可以通过此表单为您的训练作业申请 AI Platform CPU(默认为 20),该过程在此处进行了说明。

最后但并非最不重要的一点是,对于Free Tier 配额增加请求将不会被批准,需要升级。如果您已经升级,我不太确定这是否是您的情况,您可以继续申请更多配额。

于 2020-05-21T00:18:33.327 回答