1

我是使用 SLURM 的计算集群上的非付费用户。

有时,我有长时间运行的多个工作,这些工作阻塞了付费用户的队列。由于这个原因,我的工作被管理员取消了。目前,我对可用的节点数量设置了上限。虽然我不反对这种安排的公平性,但就完成工作而言,这对我来说是个问题,特别是因为我看到没有运行任何作业的空闲节点,而我只是坐等作业通过节点上限……

以此作为背景信息,这是我的两个问题:

  1. 管理员是否可以暂停然后恢复作业 - 一个作业,或用户的所有作业,或一组作业?从管理员的角度来看,这是否暂停/恢复繁重?

  2. 我想应该可以创建付费与非付费用户的列表。并且当付费用户名使用 sbatch 提交时,自动指示 SLURM 暂停非付费用户名的一个或多个工作,并在付费用户的工作完成后恢复。这甚至可能吗?如果是,是否超出了常规 SLURM / 农场管理员的技能范围?

有人可以建议任何其他解决方案(如果我上面的问题是不合理或荒谬的)?

谢谢!

4

1 回答 1

0
  1. 管理员可以运行scontrol suspend jobid然后scontrol resume jobid

  2. 这里的关键词是' QOS '和' preemption '。通常为付费用户创建一个 QOS,它对正常 QOS 具有优先购买权。非付费用户的工作可以被取消、检查点、重新排队或暂停。

于 2014-11-01T14:22:19.020 回答