我有兴趣在 HPC 集群上执行弱扩展测试。为了实现这一点,我在 1、2、4、8、16、32、64 个节点上运行了几个小测试,每次模拟需要不到一分钟到最多 1 小时。但是,在测试结果可用之前,作业会在队列中(1 小时队列)等待几天。
我有两个问题:
鉴于大多数测试不到一分钟而我必须等待几天,有没有办法在作业调度程序中确定作业的优先级?
这样的作业调度策略会在多大程度上引起对 HPC 资源的滥用。考虑一个在 32 个节点上进行 HPC 模拟的假设示例,该示例分为几个小的 1 小时模拟,由于上面第 1 点提供的解决方案,这些模拟得到优先级。
注意:HPC 中心使用的作业调度和管理系统是MOAB。每个集群节点配备 2 个 Xeon 6140 CPU@2.3 GHz (Skylake),每个 18 个内核。