我是使用 SLURM 的计算集群上的非付费用户。
有时,我有长时间运行的多个工作,这些工作阻塞了付费用户的队列。由于这个原因,我的工作被管理员取消了。目前,我对可用的节点数量设置了上限。虽然我不反对这种安排的公平性,但就完成工作而言,这对我来说是个问题,特别是因为我看到没有运行任何作业的空闲节点,而我只是坐等作业通过节点上限……
以此作为背景信息,这是我的两个问题:
管理员是否可以暂停然后恢复作业 - 一个作业,或用户的所有作业,或一组作业?从管理员的角度来看,这是否暂停/恢复繁重?
我想应该可以创建付费与非付费用户的列表。并且当付费用户名使用 sbatch 提交时,自动指示 SLURM 暂停非付费用户名的一个或多个工作,并在付费用户的工作完成后恢复。这甚至可能吗?如果是,是否超出了常规 SLURM / 农场管理员的技能范围?
有人可以建议任何其他解决方案(如果我上面的问题是不合理或荒谬的)?
谢谢!