1

由于节点崩溃或说 AWS 现场实例被带走,我正在尝试恢复/重新提交卡住的作业(在 SGE 调度程序上运行)?有人可以帮助恢复这些工作吗?我一直在尝试了解使用qsub但无法配置将自动重新提交此类作业的内容。

也无法使用qconf命令配置我的队列,因为只有rootsge_admin用户可以运行此命令,我确实有root-privileges 但要求我设置SGE_ROOT环境变量,我这样做了但仍然不断抛出错误来设置变量。

任何形式的帮助将不胜感激。

4

1 回答 1

1

从 qsub 手册页:

  -r y[es]|n[o]
       Available for qsub and qalter only.

       Identifies the ability of a job to be rerun or not.  
       If the value of -r is 'yes', the job will be rerun if the job was 
       aborted without leaving a consistent  exit state.  

       (This is typically the case if the node on which the job is running
       crashes).  If -r is 'no', the job will not be rerun under any circumstances.
       Interactive jobs submitted with qsh, qrsh or qlogin are not rerunnable.

       Qalter allows changing this option even while the job executes.

所以添加

#$ -r y

在你的工作脚本中应该满足这一点。

于 2021-02-01T17:12:01.480 回答