4

我在一个 condor 集群上运行作业,但有些作业挂在空闲状态,似乎永远不会开始,更不用说完成了。condor_wait -wait n logfile那么,除了手动执行之外,condor_rm是否有一种更优雅(和自动,内置)的方式来终止挂起的工作?

相反,由于这些作业在 dagman 中,有没有办法让 dagman 中的作业超时,以便后面的作业可以运行?

4

1 回答 1

4

这里有两种方法可以使作业在空闲时间过长(本例中为 24 小时)后自动删除。

  1. 将以下内容放入作业的提交文件中:

    period_remove = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24

  2. 或者在提交机器上的condor配置文件中放入以下内容:

    SYSTEM_PERIODIC_REMOVE = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24

当然,最好了解为什么作业会一直处于空闲状态。为此,您可能会发现很有帮助。condor_q -analyze jobid

于 2013-04-23T20:56:06.650 回答