你好友好的人们,
我的问题比较具体。
一个多星期以来,我一直在尝试使用 sbatch 和 srun 提交数千个单线程作业以进行科学实验。
问题是这些作业可能需要不同的时间才能完成,有些甚至可能因为超出内存限制而中止。这两种行为都很好,我的评估处理它。
但是,我面临的问题是某些作业从未开始,即使它们已提交。
我的 sbatch 脚本如下所示:
#!/usr/bin/bash
#SBATCH --nodes=4
#SBATCH --tasks-per-node=12
#SBATCH --mem-per-cpu=10000
for i in {1..500}
do
srun -N1 -n1 -c1 --exclusive --time=60 ${mybinary} $i &
wait 5s
done
现在,我的错误日志显示以下消息:
srun: Job 1846955 step creation temporarily disabled, retrying
1)“步骤创建暂时禁用”是什么意思?是所有 cpu 都忙,作业被省略,还是稍后资源空闲时重新开始?
2) 为什么我的一些工作没有完成,我该如何解决?我是否为 srun 使用了正确的参数?
谢谢你的帮助!