我已经在我们的实验室建立了一个小型集群(9 个节点)用于计算。目前我正在使用一个节点作为 slurm 控制器,即它不用于计算。
我也想使用它,但我不想分配所有 CPU,我想保留 2 个 CPU 空闲用于调度和其他与主节点相关的任务。
是否可以在slurm.conf中编写类似的内容:
NodeName=master NodeHostname=master CPUs=10 RealMemory=192000 TmpDisk=200000 State=UNKNOWN
NodeName=node0[1-8] NodeHostname=node0[1-8] CPUs=12 RealMemory=192000 TmpDisk=200000 State=UNKNOWN
PartitionName=mycluster Nodes=node0[1-8],master Default=YES MaxTime=INFINITE State=UP
还是我打破了什么?我不想在不先询问的情况下对其进行测试,因为集群已经在生产中,我担心会破坏某些东西......在上面的分区中,master是我的控制器的主机名,node0[1-8]是我的正常计算节点。如您所见,不使用 master 会损失集群 10% 的 CPU...
提前致谢