0

I'm running a training job on the google AI platform, just training a simple tf.Estimator. Is there a way to prevent the whole job from completing if there's still an evaluation task running?

evaluator replica being killed by gcloud

4

1 回答 1

0

我记得有人在 GCP 中使用 Kubeflow,在使用 gcloud 命令 ( 1 )提交 AI Platform 训练作业时需要使用“--stream-logs”标志。否则,作业将在完成之前停止。

根据文件,

'使用 --stream-logs 标志,此命令退出后作业将继续运行,并且必须使用 gcloud ai-platform jobs cancel JOB_ID 取消)'

值得一试,并检查在您的情况下,此标志是否也可以保持作业运行而不是过早终止它。

如果在激活标志时问题不断发生,您可能需要检查作业日志以更好地了解此行为的根本原因。

于 2020-11-18T16:55:55.173 回答