0

首先,我有密钥对,虽然涉及 ssh,但这不是密码短语问题。

我也有 MPICH、Hydra、SLURM 和 lamd ......这是一个集群计算问题。

Node0 将启动,但 node1 挂起。我已经有这个问题好几天了。我的 nfs 镜像工作得很好,我可以在 node2 上的 8 个内核上运行 Game Of Life ......这也很酷,请问我......

但是,当我想在所有三个节点上一起运行时,我会从每个节点发出密码请求,因为 node0 使用 ssh 发送进程。同样,不是密码问题,HYDRA(还有 slurm 和 lamd)想要我从 node1 获得的用户密码。基本上是我的登录凭据。我可以将其更改为 MPICHuser 帐户;然而,困境仍然存在。

除非我在所有三个节点上都创建 MPICHusers 而根本没有密码......可以这样做吗?这似乎是安全风险的缩影。

所以问题是,每当@以不会挂起lamboot的方式弹出时,我是否可以自动化密码凭证?

已经很晚了,看着我所拥有的东西让我想知道 slurm 是否是新的罪魁祸首。

这或多或少是我正在查看的内容:

me@wherever:/mirror/GameOfLife$ mpiexec.hydra -f /mirror/machinefile -n 10 ./life 10 10 30

[mpiexec@wherever] HYDU_process_mfile_token (utils/args/args.c:296):此时不支持token node0

[mpiexec@wherever] HYDU_parse_hostfile (utils/args/args.c:343):无法处理令牌

[mpiexec@wherever] mfile_fn (ui/mpich/utils.c:336):解析主机文件时出错

[mpiexec@wherever] match_arg (utils/args/args.c:152):匹配处理程序返回错误

[mpiexec@wherever] HYDU_parse_array (utils/args/args.c:174):参数匹配返回错误

[mpiexec@wherever] parse_args (ui/mpich/utils.c:1596):解析输入数组时出错

[mpiexec@wherever] HYD_uii_mpx_get_parameters (ui/mpich/utils.c:1648):无法解析用户参数

[mpiexec@wherever] main (ui/mpich/mpiexec.c:153): 解析参数时出错 me@wherever:/mirror/GameOfLife$

4

1 回答 1

0

那不是问题。我正在寻找 Slurm 的可比性。几件事几乎同时以特定的顺序发生。处理程序必须立即具有终端控制权,以便主节点可以开始发送。在我添加 Slurm 之前,hydra 机器文件正在工作,但 node0 无法“抓住”键盘。Slurm 应该在哪里寻找等效文件?我想知道我是否应该去除水螅。

于 2017-07-31T14:45:46.963 回答