queue - Slurm 工作越来越饿

问问题 2020-10-05T10:48:21.153

58 次

所以，我的 Slurm GPU 队列存在问题，不时会导致工作匮乏。

基本上，我有很多节点有 1 个 GPU、2 个 GPU、3 个 GPU，只有 2 个有 4 个 GPU。情况如下：

知道我已将 1 个 GPU 节点的权重设置为 1，将 2 个 GPU 节点设置为 2，将 3 个 GPU 节点设置为 3，将 4 个 GPU 节点设置为 4，以便用户优先考虑任何可用的 1 个 GPU 作业，如果不是，则为 2，如果然后不是 3，最后是 4。

有什么建议可以消除或减少这里的饥饿（自动）？我的工作要等上几周！

0 回答 0