我在 SLURM 集群上运行 MPI 作业,并希望将生成的进程固定到节点上的特定核心。这可以包括不同节点上不同数量的进程以及不同节点上不同的固定模式。如果我使用 salloc 分配节点,并为 mpi 进程构建一个等级文件并使用 mpirun 启动进程,这一切都相对容易。
不幸的是,如果分配因超时或抢占等任何原因而被撤销,则在节点上运行的进程将被杀死,但在头节点上执行的 mpirun 不会被杀死,并且从产生可忽略不计的负载变为产生 100它无限期执行的线程的负载百分比。
看起来答案是使用 srun 而不是 mpirun 来启动应用程序,但是如果我这样做,我正在努力找出如何设置进程放置。有人有什么建议吗?