job-scheduling - 为弱扩展测试优先考虑小型 HPC 作业的最佳作业调度程序策略是什么？

翻译自：https://stackoverflow.com/questions/58099962 2019-09-25T13:49:28.863

32 次

0

我有兴趣在 HPC 集群上执行弱扩展测试。为了实现这一点，我在 1、2、4、8、16、32、64 个节点上运行了几个小测试，每次模拟需要不到一分钟到最多 1 小时。但是，在测试结果可用之前，作业会在队列中（1 小时队列）等待几天。

我有两个问题：

鉴于大多数测试不到一分钟而我必须等待几天，有没有办法在作业调度程序中确定作业的优先级？
这样的作业调度策略会在多大程度上引起对 HPC 资源的滥用。考虑一个在 32 个节点上进行 HPC 模拟的假设示例，该示例分为几个小的 1 小时模拟，由于上面第 1 点提供的解决方案，这些模拟得到优先级。

注意：HPC 中心使用的作业调度和管理系统是MOAB。每个集群节点配备 2 个 Xeon 6140 CPU@2.3 GHz (Skylake)，每个 18 个内核。

1 回答 1

0

Moab 的 fairshare 调度程序可能会做你想做的事，或者如果它不是开箱即用的，可能会允许在你感兴趣的范围内调整工作的优先级：http: //docs.adaptivecomputing.com/mwm/7-1 -3/help.htm#topics/fairness/6.3fairshare.html。

于 2019-09-25T20:44:26.783 回答