我有一个脚本condor_submit
为一批 25 个作业运行,condor_wait
让它们全部完成,然后condor_submit
为另一批 pf 25 个作业运行另一个脚本。
我想确保前 25 个作业都没有失败Normal termination (return value 127)
(任何非零返回值)。
我怎样才能轻松做到这一点?或者,如果这是不可能的,我也愿意将我的作业可执行文件包装在一个脚本中,以防它们返回非零 - 但我不确定如何让 HTCondor 作业失败!
我有一个脚本condor_submit
为一批 25 个作业运行,condor_wait
让它们全部完成,然后condor_submit
为另一批 pf 25 个作业运行另一个脚本。
我想确保前 25 个作业都没有失败Normal termination (return value 127)
(任何非零返回值)。
我怎样才能轻松做到这一点?或者,如果这是不可能的,我也愿意将我的作业可执行文件包装在一个脚本中,以防它们返回非零 - 但我不确定如何让 HTCondor 作业失败!
您可以使用 condor_history http://research.cs.wisc.edu/htcondor/manual/current/condor_history.html
如果您运行以下命令:
condor_history USERNAME -af clusterId ExitStatus
它将返回一个空格分隔的列表
JobId 退出状态
它还支持除了传递 USERNAME 之外的其他选项。
解决此问题的另一种方法是使用 condor_dagman 工具。使用 dagman,您可以列出作业之间的依赖关系,当所有依赖的作业都完成时,dagman 会自动提交作业。无需运行 condor_wait 或查看退出代码。