使用sinfo
它显示 3 个节点处于drain
状态,
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
all* up infinite 3 drain node[10,11,12]
我应该使用哪个命令行来释放这些节点?
使用sinfo
它显示 3 个节点处于drain
状态,
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
all* up infinite 3 drain node[10,11,12]
我应该使用哪个命令行来释放这些节点?
找到一种方法,输入 scontrol 解释器(在命令行类型中scontrol
)然后
scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME
然后
scontrol: show node node10
显示其他信息
State=IDLE
更新:其中一些节点恢复了 DRAIN 状态;show node a10
注意到他们的根分区在显示后已满Reason=SlurmdSpoolDir is full
,因此在 Ubuntusudo apt-get clean
中删除/var/cache/apt
内容并压缩了一些/var/log
文件。
如果节点上当前没有作业正在运行:
scontrol update nodename=node10 state=idle
如果作业正在节点上运行:
scontrol update nodename=node10 state=resume
如果您将其设置为关闭,所有作业都将被杀死。
将节点设置为 RESUME。
节点处于 DRAIN 状态的另一个原因是有关系统的事实与 /etc/slurm/slurm.conf 文件中声明的事实不匹配。例如,如果 slurm.conf 文件声明一个节点有 4 个 GPU,但 slurm 守护进程只找到其中的 3 个,它会因为不匹配而将该节点标记为“drain”。或者如果节点在 slurm.conf 中声明有 128G 内存,而 slurm 守护进程只找到 96G,它也会将状态设置为“drain”。
'scontrol show node' 命令将不匹配的原因代码显示为输出的最后一行。
虽然已经有一个批准的答案,但我想提一下:
scontrol: update NodeName=nodename State=DOWN Reason="undraining"
scontrol: update NodeName=nodename State=RESUME
在 EndeavourOS 2021.08.27 上返回slurm_update error: Invalid node state specified
SLURM 21.08.03。对我有用的解决方案是:
scontrol: update NodeName=nodename State=UNDRAIN
无需设置节点DOWN