在qsub
StarCluster / SGE 集群上执行作业时,是否有一种简单的方法可以确保每个节点一次最多接收一个作业?我遇到了多个作业最终在同一个节点上导致内存不足 (OOM) 问题的问题。
我尝试使用-l cpu=8
,但我认为这不会检查使用的核心数量,而只是检查盒子本身的核心数量。
我也尝试过-l slots=8
,但后来我得到:
Unable to run job: "job" denied: use parallel environments instead of requesting slots explicitly.