我有一个 mpi 工作,我使用 sbatch 脚本在 slurm 中运行,它看起来像:
# request 384 processors across 16 nodes for exclusive use:
#SBATCH --exclusive
#SBATCH --ntasks-per-node=24
#SBATCH -n 384
#SBATCH -N 16
#SBATCH --time 3-00:00:00
mpirun myprog
我想监视“myprog”进程的内存/cpu 使用情况和其他一些行为。我已经编写了一个简单的脚本(称为“监视器”),它可以做到这一点,但我很难理解如何使用 sbatch 在每个分配的节点上运行它的一个副本,同时作为“myprog”。
我想我需要将上面的内容修改为:
...
srun monitor
mpirun myprog
但我很困惑a)这意味着“监视器”是否会在后台运行,b)我如何控制“监视器”的运行位置。