1

所以,我的 Slurm GPU 队列存在问题,不时会导致工作匮乏。

基本上,我有很多节点有 1 个 GPU、2 个 GPU、3 个 GPU,只有 2 个有 4 个 GPU。情况如下:

  1. 用户 A 提交 4 GPU 作业
  2. Slurm 为用户 A 的作业分配一个 4 GPU 节点
  3. 用户 B、C 和 D 提交 1 个 GPU 作业并全部分配到第二个 4 GPU 节点
  4. 用户 E 提交了一个 4 GPU 作业,由于没有资源来满足其需求,它处于待处理状态
  5. 用户 F、G、H、I...等提交 1 个 GPU 作业,用户 B、C 或 D 的任何作业完成后立即分配给 4 个 GPU 节点
  6. 更多用户继续提交作业,4 GPU 节点忙于这 1 GPU 作业
  7. 用户 E 4 GPU 作业永远等待,因为 4 个 GPU 永远不会一起使用

知道我已将 1 个 GPU 节点的权重设置为 1,将 2 个 GPU 节点设置为 2,将 3 个 GPU 节点设置为 3,将 4 个 GPU 节点设置为 4,以便用户优先考虑任何可用的 1 个 GPU 作业,如果不是,则为 2,如果然后不是 3,最后是 4。

有什么建议可以消除或减少这里的饥饿(自动)?我的工作要等上几周!

4

0 回答 0