我最近提交了一个训练作业,其命令如下:
gcloud ai-platform jobs submit training foo --region us-west2 --master-image-uri us.gcr.io/bar:latest -- baz qux
(有关此命令如何工作的更多信息:https ://cloud.google.com/ml-engine/docs/training-jobs )
我的代码中有一个错误导致作业继续运行,而不是终止。两周和 61 美元后,我发现了自己的错误并取消了工作。我想确保我不会再犯这种错误。
我正在考虑使用timeout
训练容器中的命令来杀死进程,如果它需要太长时间(典型的运行时间大约是 2 或 3 小时),但我不相信容器会杀死自己,我更愿意配置 GCP 来杀死它外部。
有没有办法做到这一点?