我正在寻找可以在分布式计算环境中管理大规模工作流的开源资源管理器。我对 TORQUE、SLURM、LOADLEVELER 进行了调查,SLURM 在处理大型节点但在单个集群中优于 TORQUE。所有这些都用于批处理系统。Condor 用于网格环境,但提供粗粒度分布式并行化。我觉得 Ganglia 和 Nagios 在高性能计算环境中表现出色。但是我想知道 Ganglia 和 Nagios 是否可以用于 Workflows?可以将我的调度算法嵌入调度程序中,并通过 Hadoop MapReduce 框架与资源管理器一起使用它吗?有帮助的回复更受欢迎。谢谢你。