我在一个 condor 集群上运行作业,但有些作业挂在空闲状态,似乎永远不会开始,更不用说完成了。condor_wait -wait n logfile
那么,除了手动执行之外,condor_rm
是否有一种更优雅(和自动,内置)的方式来终止挂起的工作?
相反,由于这些作业在 dagman 中,有没有办法让 dagman 中的作业超时,以便后面的作业可以运行?
我在一个 condor 集群上运行作业,但有些作业挂在空闲状态,似乎永远不会开始,更不用说完成了。condor_wait -wait n logfile
那么,除了手动执行之外,condor_rm
是否有一种更优雅(和自动,内置)的方式来终止挂起的工作?
相反,由于这些作业在 dagman 中,有没有办法让 dagman 中的作业超时,以便后面的作业可以运行?
这里有两种方法可以使作业在空闲时间过长(本例中为 24 小时)后自动删除。
将以下内容放入作业的提交文件中:
period_remove = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24
或者在提交机器上的condor配置文件中放入以下内容:
SYSTEM_PERIODIC_REMOVE = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24
当然,最好了解为什么作业会一直处于空闲状态。为此,您可能会发现很有帮助。condor_q -analyze jobid