2

我正在尝试使用 openMPI 设置一个相对较小的集群(36 核),但遇到了一个小问题。我已经安装并正确运行了所有 openMPI 库和任何依赖项(我可以在每台计算机上作为 localhost 运行一个 hello world MPI 程序)。问题是我似乎找不到太多关于如何让计算机一起执行程序的文档。我可以执行 mpirun --hostfile 命令,但我不想每次执行作业时都必须指定主机文件。此外,未来的用户不会一直访问集群上的所有 IP 地址。他们和我希望能够毫无问题地执行 mpirun -np 20 programFile。有人可以就我现在需要做的事情提供一些指导吗?公平地说,我 我在大学里只上过一节课,我们用 MPI 编写并行程序,但他们从未向我们展示如何使用 openMPI 设置新集群。我很感激你们能给的任何建议。我通过搜索找到了本指南MPICH_Cluster_Setup如果是 openMPI 那就太好了。是否有与 openMPI 相关的类似指南?

4

1 回答 1

2

您应该使用 Torque、SLURM 或 SGE 之类的集群调度程序(都是免费的/FOSS)。这些允许用户保留节点供他们使用,并且所有“对话”以打开 MPI 以告诉它哪些节点用于该用户作业(这样他们就不必使用主机文件)。

根据 MPICH 集群设置文档,这正是您对开放 MPI 所需要的,但没有必要在最后设置 MPD(无论如何,MPICH 已经弃用了 MPD)。

于 2012-03-08T15:07:46.710 回答