我正在尝试构建一个基于 Windows XP 的简单集群。我成功编译了 OpenMPI-1.4.2,并且类似的工具mpicc
也ompi_info
可以正常工作,但我无法mpirun
正常工作。我能看到的唯一输出是
Z:\>orterun --hostfile z:\hosts.txt -np 2 主机名 [host0:04728] 无法初始化 COM 库。错误代码 = -2147417850 [host0:04728] [[8946,0],0] ORTE_ERROR_LOG:文件错误 ..\..\openmpi-1.4.2 \orte\mca\ess\hnp\ess_hnp_module.c 在第 218 行 -------------------------------------------------- ---------------------- 看起来 orte_init 由于某种原因失败了;你的并行过程是 很可能流产。并行过程可以有很多原因 在 orte_init 期间失败;其中一些是由于配置或 环境问题。此故障似乎是内部故障; 这是一些附加信息(可能仅与 打开 MPI 开发人员): orte_plm_init 失败 --> 返回值错误 (-1) 而不是 ORTE_SUCCESS -------------------------------------------------- ---------------------- [host0:04728] [[8946,0],0] ORTE_ERROR_LOG:文件错误 ..\..\openmpi-1.4.2 \orte\runtime\orte_init.c 在第 132 行 -------------------------------------------------- ---------------------- 看起来 orte_init 由于某种原因失败了;你的并行过程是 很可能流产。并行过程可以有很多原因 在 orte_init 期间失败;其中一些是由于配置或 环境问题。此故障似乎是内部故障; 这是一些附加信息(可能仅与 打开 MPI 开发人员): orte_ess_set_name 失败 --> 返回值错误 (-1) 而不是 ORTE_SUCCESS -------------------------------------------------- ---------------------- [host0:04728] [[8946,0],0] ORTE_ERROR_LOG:文件中的错误 ..\..\..\..\openmpi -1.4.2\orte\tools\orterun\orterun.c 在第 543 行
其中z:\hosts.txt
出现如下:
主机0 主机1
Z:
是 host0 和 host1 都可以使用的共享网络驱动器。
我的问题是什么,我该如何解决?
更新: 好的,这个问题似乎已经解决了。在我看来,WideCap 驱动程序和/或软件组件会导致出现此错误。“干净”的机器成功运行本地任务。无论如何,我仍然无法在至少 2 台机器上运行任务,我收到以下消息:
Z:\>mpirun --hostfile z:\hosts.txt -np 2 主机名 连接到主机1 用户名:主\集群 密码:******** 保存凭证?(Y/N) 是 [host0:04728] 此功能尚未实现。 [host0:04728] 无法连接到节点 host1 上的命名空间 cimv2。错误代码=-2147217400 -------------------------------------------------- ---------------------- 由于遇到错误,mpirun 无法启动指定的应用程序。 更多信息可能在上面可用。 -------------------------------------------------- ----------------------
我用谷歌搜索了一下,做了这里描述的所有事情:http ://www.open-mpi.org/community/lists/users/2010/03/12355.php但我仍然遇到同样的错误。谁能帮我?
Upd2:
错误代码 -2147217400 可能是 WMI 错误WBEM_E_INVALID_PARAMETER (0x80041008)
,当传递给 WMI 调用的参数之一不正确时发生。这是否意味着问题出在 OpenMPI 源代码本身?或者可能是因为错误/过时wincred.h
而credui.lib
我在从源代码构建 OpenMPI 时使用过?