google-cloud-platform - 无论如何要坚持配额 20.0 CPU 并提交作业？

Question

每当我尝试使用命令向 gcloud 提交训练作业时

gcloud ml-engine jobs submit training

它给出的配额错误是

The requested 60.0 CPUs exceeds the allowed maximum of 20.0.

即使我从未在命令中定义 60.0 CPU。根据谷歌文档，我们需要增加配额才能完成这项工作。有没有办法坚持配额 20.0 CPU 并在 GCP 上训练模型？

score 1 · Accepted Answer

我不确定这是否是您问题的解决方案，但是当我得到时我做了什么：

The requested N CPUs exceeds the allowed maximum of 20.0.

从gcloud ai-platform jobs submit training. 根据这个和这个链接，您可以将--scale-tier参数传递给submit training命令，该命令控制您的工作的一些规范，包括工人的数量。在这种情况下，如果您设置--scale-tier为 STANDARD、PREMIUM 或 CUSTOM，那么 CPU 工作人员将相应地扩展到新的数量（例如，在您的情况下它是 60.0 个 CPU）。

由于 BASIC 层是“单个工作实例”，因此只需切换到

gcloud ai-platform jobs submit training --scale-tier BASIC-[GPU|TPU]

应该解决这个配额问题。增加配额的观点是有效的，但据我所知，在你的情况下不需要更多的工人。

否则，如果你想加快训练速度，那么你应该查看 CUSTOM tier 和 workerCount 参数，它指定了要使用的工人数量（更多信息在这里）。

score 0 · Accepted Answer

根据Cloud ML Engine 配额文档，AI Platform CPU 配额不计入 Compute Engine CPU 配额。

有提到控制台可以请求某些配额，看起来AI Platform CPUs配额不是其中之一；因此，您可以通过此表单为您的训练作业申请 AI Platform CPU（默认为 20），该过程在此处进行了说明。

最后但并非最不重要的一点是，对于Free Tier 配额增加请求将不会被批准，需要升级。如果您已经升级，我不太确定这是否是您的情况，您可以继续申请更多配额。

google-cloud-platform - 无论如何要坚持配额 20.0 CPU 并提交作业？

2 回答 2

Related

Reference