I'm running a training job on the google AI platform, just training a simple tf.Estimator. Is there a way to prevent the whole job from completing if there's still an evaluation task running?
问问题
59 次
1 回答
0
我记得有人在 GCP 中使用 Kubeflow,在使用 gcloud 命令 ( 1 )提交 AI Platform 训练作业时需要使用“--stream-logs”标志。否则,作业将在完成之前停止。
根据文件,
'使用 --stream-logs 标志,此命令退出后作业将继续运行,并且必须使用 gcloud ai-platform jobs cancel JOB_ID 取消)'
值得一试,并检查在您的情况下,此标志是否也可以保持作业运行而不是过早终止它。
如果在激活标志时问题不断发生,您可能需要检查作业日志以更好地了解此行为的根本原因。
于 2020-11-18T16:55:55.173 回答