3

关于集群实现(“Beowulf 集群”)如何与诸如 MPI 之类的通信协议相关联,我有点困惑。使用 OpenMPI 之类的东西设置“集群”需要哪些软件组件?

4

3 回答 3

3

如您所知,集群是一组联网的计算机。当你有这样的配置时,你通常会安装和使用以下内容:

  • MPI,用于进程之间的通信
  • NFS,有一个网络磁盘可见并共享给所有节点
  • NTP,用于同步节点的时间,以便您可以比较日志事件和时间戳
  • bootp 从远程节点引导节点,以便每个节点以保证良好和统一的设置重新启动。
  • 一组集群实用程序,让您的生活更轻松,例如分布式 ssh,可同时在所有节点上执行相同的命令。
  • 任务调度程序或队列管理器,例如 Condor、LFS 或其他,允许您确定作业提交的优先级并最终衡量它们的限制/定价。
  • 一个看门狗,所以如果它卡住了,它会自动重启一个节点。
  • UPS的软件控制(以便在长时间断电的情况下自动关闭)

以及更多。所有这些东西完全是 MPI 的附加内容。MPI 只是进程之间的通信通道。单独的 MPI 并不能“组成集群”。

于 2011-08-25T08:10:40.370 回答
1

正如您所指出的,MPI 只会提供进程之间的通信。如果没有几个人使用集群,你真的不需要更多(除了一些脚本来在所有节点上启动你的程序)。

但是,实际上我们很少有我们的个人集群。这时候你需要一个调度器。调度程序通常会处理作业提交和资源分配,可能还会处理优先级、用户管理和其他让您的生活更轻松的事情。

于 2011-08-25T08:00:28.923 回答
0

看看Oracle Grid Engine(nee Sun Grid Engine 或 CODINE)。

于 2011-08-25T08:03:30.500 回答