1

使用sacct我想获取有关我已完成工作的信息。

答案提到我们如何获得工作的信息。

我已经提交了一个jobName.shjobID 为 176 的作业名称。12 小时后,新的 200 个作业进来了,我想检查我的作业 (jobID=176) 信息并获得slurm_load_jobs error: Invalid job id specified.

scontrol show job 176
slurm_load_jobs error: Invalid job id specified

以下行不返回任何内容:sacct --name jobName.sh

我假设有一个时间限制来保留以前提交的工作信息,以某种方式删除以前工作的信息。有限制吗?我怎样才能使该限制非常大以防止它们被删除?

请不要JobRequeue=0在 slurm.conf 上。

4

2 回答 2

3

假设您使用 mySQL 存储该数据,在您的数据库配置文件slurmdbd.conf中,您可以调整清除时间等。这里有一些例子:

PurgeJobAfter=12hours
PurgeJobAfter=1month
PurgeJobAfter=24months

如果未设置(默认),则永远不会清除作业记录。

更多信息

于 2018-05-02T06:22:01.597 回答
2

Slurm 文档中提到:

MinJobAge 从 Slurm 的活动数据库中清除其记录之前已完成作业的最小年龄。设置 MaxJobCount 的值并确保 slurmctld 守护程序不会耗尽其内存或其他资源。默认值为 300 秒。零值可防止任何作业记录清除。为了消除一些可能的竞争条件,建议 MinJobAge 的最小非零值是 2。

在我的slurm.conf档案中,MinJobAge是 300,即 5 分钟。这就是为什么在 5 分钟后删除每个已完成作业的信息的原因。MinJobAge为了防止删除操作,我增加了 's 的值。

于 2018-05-02T06:55:04.380 回答