我正在使用 slurm、OpenMPI 和 python(带有 MKL 的 anaconda)在多节点集群上运行作业。当我提交作业时,一切似乎都按预期工作。但是,如果我登录到运行作业的节点之一并使用 htop 查看正在运行的进程,我会看到我启动的作业,并且对于每个作业,我都会看到另外 10 个“克隆”进程,它们占用与我开始的作业相同的内存但是 CPU 负载为 0(所有变化都是 PID 和 CPU(0%),其他一切都相同)。
谁能解释这种行为?
谢谢!
PS这里是我用来提交作业的批处理脚本:
#!/bin/zsh
#SBATCH --job-name="DSC on Natims"
#SBATCH -n 16
#SBATCH -N 8
#SBATCH --ntasks-per-node=2
#SBATCH --mem-per-cpu=20G
#SBATCH --output="log_dsc%j.out"
#SBATCH --error="log_dsc%j.err"
mpiexec -iface bond0 python dsc_run.py