我正在使用 Torque+MAUI 集群。
集群的利用率现在约为 10 个节点/40 个节点可用,许多作业正在排队但无法启动。
我使用以下 PBS 脚本提交qsub
:
#!/bin/bash
#
#PBS -S /bin/bash
#PBS -o STDOUT
#PBS -e STDERR
#PBS -l walltime=500:00:00
#PBS -l nodes=1:ppn=32
#PBS -q zone0
cd /somedir/workdir/
java -Xmx1024m -Xms256m -jar client_1_05.jar
该作业立即获得 R(un) 状态,但我从qstat -n
8655.cluster.local user zone0 run.sh -- 1 32 -- 500:00:00 R 00:00:31
z0-1/0+z0-1/1+z0-1/2+z0-1/3+z0-1/4+z0-1/5+z0-1/6+z0-1/7+z0-1/8+z0-1/9
+z0-1/10+z0-1/11+z0-1/12+z0-1/13+z0-1/14+z0-1/15+z0-1/16+z0-1/17+z0-1/18
+z0-1/19+z0-1/20+z0-1/21+z0-1/22+z0-1/23+z0-1/24+z0-1/25+z0-1/26+z0-1/27
+z0-1/28+z0-1/29+z0-1/30+z0-1/31
异常部分--
在 中run.sh -- 1 32
,因为缺少 sessionId,显然脚本根本没有运行,即 java 程序没有启动的痕迹。
在这种奇怪的运行约 5 分钟后,该作业将被设置回 Q(ueue) 状态,并且似乎不会再次运行(我已经监视了约 1 周,即使排到顶部也没有运行大多数工作)。
我尝试了 14 次提交相同的作业,并在 中监视了它的节点qstat -n
,成功运行了 7 个副本,节点号各不相同,但是所有分配的作业都被z0-1/*
这种奇怪的启动行为卡住了。
有人知道这个问题的解决方案吗?
对于临时解决方法,如何指定不在 PBS 脚本中使用那些奇怪的节点?