1

我有一个脚本condor_submit为一批 25 个作业运行,condor_wait让它们全部完成,然后condor_submit为另一批 pf 25 个作业运行另一个脚本。

我想确保前 25 个作业都没有失败Normal termination (return value 127)(任何非零返回值)。

我怎样才能轻松做到这一点?或者,如果这是不可能的,我也愿意将我的作业可执行文件包装在一个脚本中,以防它们返回非零 - 但我不确定如何让 HTCondor 作业失败!

4

2 回答 2

1

您可以使用 condor_history http://research.cs.wisc.edu/htcondor/manual/current/condor_history.html

如果您运行以下命令:

condor_history USERNAME -af clusterId ExitStatus

它将返回一个空格分隔的列表

JobId 退出状态

它还支持除了传递 USERNAME 之外的其他选项。

于 2017-10-02T23:48:41.090 回答
0

解决此问题的另一种方法是使用 condor_dagman 工具。使用 dagman,您可以列出作业之间的依赖关系,当所有依赖的作业都完成时,dagman 会自动提交作业。无需运行 condor_wait 或查看退出代码。

于 2018-06-26T03:53:27.397 回答