0

我在一个研究小组工作,主要从事机器学习和计算生物学。

我们目前有一个集群,但维护不善,I/O 吞吐量低,最关键的是没有任何调度或负载平衡设置。因此,要使用它,您必须自己找到一个空闲节点,通过 ssh 进入该节点,在命令行上运行您的脚本,然后手动收集您的结果。

实现易于使用的调度程序和负载平衡器的最佳软件堆栈是什么,以便用户可以将他们的作业提交到中央队列,当资源可用时自动运行,并轻松获取结果?

4

1 回答 1

2

有许多调度程序/资源管理器选项是开源的并且经过深思熟虑:

  • Torque / Maui,古老的 PBS 的后代,现在由自适应计算维护
  • Slurm是 LLNL 的一个较新的项目,它的优点是可以很好地扩展
  • Open Grid Engine , née Sun Grid Engine

但是还有许多旨在简化集群管理的完整软件堆栈:

我正在为其他有建议的人制作一个社区 wiki。

于 2012-11-22T16:05:28.457 回答