1

我是第一次安装 slurm。我已经安装了 19.05.1-2 压缩包并使用配置器制作了一个非常简单的两节点集群。控制节点是 sdc,计算节点(运行 slurmd)是 sdc 和 sdc1。两者都使用 Ubuntu 18.04 重建

我可以启动控制器和计算节点 sdc 并使用 srun 成功提交作业。那太棒了。但是,当我在第二个节点 SDC1 上启动 slurmd 时,我得到:

slurmd: error: Unable to register: Zero Bytes were transmitted or received

这很快就把我引向了我的 munge 配置。控制器 (sdc) 上的 Munge.log 每秒显示“无效凭据”。我三次检查了两台主机上的 munge.key 是否相同。我验证了 ntp 也在运行。

所以我用手做了 munge -s foobar | unmunge 在 SDC1 上当然可以在本地工作。然后我将 SDC1 中的 munged 文本保存到 SDC 上的文件中并尝试 unmunge。那确实再次给了我“无效凭据”错误。

因此,我在两个系统上卸载并重新安装了 munge,分发了密钥并重复了该测试,结果相同。

我想我错过了一些简单的东西。我不知道还有什么可以正确安装 munge。

4

1 回答 1

3

这是节点之间的 UID/GID 不匹配。当然,安装指南中提到了。

于 2019-07-19T02:59:33.463 回答