3

我已经在我们的实验室建立了一个小型集群(9 个节点)用于计算。目前我正在使用一个节点作为 slurm 控制器,即它不用于计算。

我也想使用它,但我不想分配所有 CPU,我想保留 2 个 CPU 空闲用于调度和其他与主节点相关的任务。

是否可以在slurm.conf中编写类似的内容:

NodeName=master NodeHostname=master  CPUs=10 RealMemory=192000 TmpDisk=200000 State=UNKNOWN
NodeName=node0[1-8] NodeHostname=node0[1-8]  CPUs=12 RealMemory=192000 TmpDisk=200000 State=UNKNOWN
PartitionName=mycluster Nodes=node0[1-8],master Default=YES MaxTime=INFINITE State=UP

还是我打破了什么?我不想在不先询问的情况下对其进行测试,因为集群已经在生产中,我担心会破坏某些东西......在上面的分区中,master是我的控制器的主机名,node0[1-8]是我的正常计算节点。如您所见,不使用 master 会损失集群 10% 的 CPU...

提前致谢

4

1 回答 1

4

实际上是的,它有效。

我还添加Weight=1了节点和Weight=2主节点,以便仅在节点繁忙时使用它。

干杯

于 2014-05-06T15:33:03.467 回答