我是第一次安装 slurm。我已经安装了 19.05.1-2 压缩包并使用配置器制作了一个非常简单的两节点集群。控制节点是 sdc,计算节点(运行 slurmd)是 sdc 和 sdc1。两者都使用 Ubuntu 18.04 重建
我可以启动控制器和计算节点 sdc 并使用 srun 成功提交作业。那太棒了。但是,当我在第二个节点 SDC1 上启动 slurmd 时,我得到:
slurmd: error: Unable to register: Zero Bytes were transmitted or received
这很快就把我引向了我的 munge 配置。控制器 (sdc) 上的 Munge.log 每秒显示“无效凭据”。我三次检查了两台主机上的 munge.key 是否相同。我验证了 ntp 也在运行。
所以我用手做了 munge -s foobar | unmunge 在 SDC1 上当然可以在本地工作。然后我将 SDC1 中的 munged 文本保存到 SDC 上的文件中并尝试 unmunge。那确实再次给了我“无效凭据”错误。
因此,我在两个系统上卸载并重新安装了 munge,分发了密钥并重复了该测试,结果相同。
我想我错过了一些简单的东西。我不知道还有什么可以正确安装 munge。