0

我正在尝试在 8 台机器上运行 MPI 程序,但出现错误

connect to address 127.0.0.1 port 544: Connection refused
Trying krb4 rsh...
connect to address 127.0.0.1 port 544: Connection refused
trying normal rsh (/usr/bin/rsh)
lagrid02: Connection refused

当我使用 machinefile 选项运行它时,我得到lagrid03: No route to hostlagrid03 是连接到主节点的相邻节点的错误。

我应该如何纠正这个?

4

2 回答 2

0

关于您的第一个错误,rsh 是否在(所有)机器上运行?您需要配置 rsh 或无密码 ssh(并要求您的 mpi 作业启动器使用 ssh),然后才能在不同的机器上启动作业。

第二个错误表示当前网络配置无法访问机器 lagrid03。我猜你有一个 /etc/hosts 条目,其中包含 lagrid03 的 IP 地址,但你没有在该网络中配置接口。要获得更详细的答案,您需要发布有关您的网络配置的详细信息。

于 2011-10-01T00:52:36.023 回答
0

问题在于身份验证,如果您进入/etc/pam.d/rsh文件并将 rlogin 和 rsh 移动到顶部并使其看起来像这样,它就可以正常工作。

/* For root login to succeed here with pam_securetty, "rsh" must be listed in /etc/securetty.*/

auth required pam_nologin.so

auth required pam_securetty.so

auth required pam_env.so

auth required pam_rhosts_auth.so

account include system-auth

session optional pam_keyinit.so force revoke
session include system-auth
于 2014-03-17T14:48:48.857 回答