2

我刚刚加入了我所在大学的一个研究实验室,并获得了访问集群的权限,以编译和运行我编写的 c++ 代码。我使用 SSH 来访问它,并且像 Linux 终端一样简单地使用集群。

在我的代码运行时,我经常需要等待相对较长的时间。我试图弄清楚是否有更有效的方式使用集群。例如,集群中有不同的 CPU/节点,其中一些使用较多,而另一些使用较少。如何访问特定的 CPU?我可以访问“Ganglia”概述页面,该页面提供有关不同节点的信息。

此外,如果我在不同的 SSH 窗口中运行 2 个进程,它将自动使用不同的处理器或节点,还是我必须手动指定。

我找不到任何文档来帮助我解决这些问题,所以我很感激一些帮助。

谢谢

4

1 回答 1

4

简单地在集群上运行某些东西并不意味着它完全利用了集群。默认情况下,它可能只会在头节点上运行。需要专门为集群编写软件。

您可能需要与之交互的某种调度程序正在运行。也许您还可以查看是否为您的特定集群安装和配置了 distcc(用于跨多台机器进行编译)。也可能有一种特殊的 MPI 运行方式允许不同节点上的进程进行通信。

集群软件设置往往非常专用于硬件和计算环境。真的,我建议您在此类问题之前询问使用过该机器的人,因为您在此处收到的任何建议都不太可能对您的特定集群完全准确。

于 2010-07-23T10:58:41.297 回答