我有几千个作业要在具有 16 个节点的 SLURM 集群上运行。这些作业应该只在大小为 7 的可用节点的子集上运行。一些任务是并行的,因此使用单个节点的所有 CPU 能力,而其他任务是单线程的。因此,多个作业应该在单个节点上同时运行。任何任务都不应该在多个节点上产生。
目前我提交的每个工作如下:
sbatch --nodelist=myCluster[10-16] myScript.sh
但是,此参数使 slurm 等待提交的作业终止,因此使 3 个节点完全未使用,并且根据任务(多线程或单线程),当前活动节点也可能在 CPU 能力方面处于低负载状态.
sbatch
强制 slurm 在指定节点上同时运行多个作业的最佳参数是什么?