0

我正在使用 slurm、OpenMPI 和 python(带有 MKL 的 anaconda)在多节点集群上运行作业。当我提交作业时,一切似乎都按预期工作。但是,如果我登录到运行作业的节点之一并使用 htop 查看正在运行的进程,我会看到我启动的作业,并且对于每个作业,我都会看到另外 10 个“克隆”进程,它们占用与我开始的作业相同的内存但是 CPU 负载为 0(所有变化都是 PID 和 CPU(0%),其他一切都相同)。

谁能解释这种行为?

谢谢!

PS这里是我用来提交作业的批处理脚本:

#!/bin/zsh
#SBATCH --job-name="DSC on Natims"
#SBATCH -n 16
#SBATCH -N 8
#SBATCH --ntasks-per-node=2
#SBATCH --mem-per-cpu=20G
#SBATCH  --output="log_dsc%j.out"
#SBATCH  --error="log_dsc%j.err"
mpiexec -iface bond0 python dsc_run.py
4

1 回答 1

0

这些是程序启动的线程,因此它们是同一进程的一部分。在 htop 中按大写“H”切换进程线程的显示以查看差异。按 F2 查看设置菜单中的显示选项。您可以切换以也以不同的颜色显示线程。

于 2016-01-06T20:22:42.640 回答