33

使用sinfo它显示 3 个节点处于drain状态,

PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
all*         up   infinite      3  drain node[10,11,12]

我应该使用哪个命令行来释放这些节点?

4

5 回答 5

36

找到一种方法,输入 scontrol 解释器(在命令行类型中scontrol)然后

scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME

然后

scontrol: show node node10

显示其他信息

State=IDLE

更新:其中一些节点恢复了 DRAIN 状态;show node a10注意到他们的根分区在显示后已满Reason=SlurmdSpoolDir is full,因此在 Ubuntusudo apt-get clean中删除/var/cache/apt内容并压缩了一些/var/log文件。

于 2015-04-09T10:52:13.643 回答
22

如果节点上当前没有作业正在运行:

scontrol update nodename=node10 state=idle

如果作业正在节点上运行:

scontrol update nodename=node10 state=resume
于 2018-07-11T11:50:08.610 回答
14

如果您将其设置为关闭,所有作业都将被杀死。

将节点设置为 RESUME。

于 2015-11-09T16:23:48.380 回答
3

节点处于 DRAIN 状态的另一个原因是有关系统的事实与 /etc/slurm/slurm.conf 文件中声明的事实不匹配。例如,如果 slurm.conf 文件声明一个节点有 4 个 GPU,但 slurm 守护进程只找到其中​​的 3 个,它会因为不匹配而将该节点标记为“drain”。或者如果节点在 slurm.conf 中声明有 128G 内存,而 slurm 守护进程只找到 96G,它也会将状态设置为“drain”。

'scontrol show node' 命令将不匹配的原因代码显示为输出的最后一行。

于 2020-05-07T15:50:27.427 回答
1

虽然已经有一个批准的答案,但我想提一下:

scontrol: update NodeName=nodename State=DOWN Reason="undraining"
scontrol: update NodeName=nodename State=RESUME

在 EndeavourOS 2021.08.27 上返回slurm_update error: Invalid node state specifiedSLURM 21.08.03。对我有用的解决方案是:

scontrol: update NodeName=nodename State=UNDRAIN

无需设置节点DOWN

于 2021-11-16T17:00:26.500 回答