0

当我运行以下命令时,我能够看到一堆 slurm 作业。既然我能看到他们,我相信他们的日志应该被保存。

$ sacct --format="JobID,JobName%30"                          
       JobID                        JobName
------------ ------------------------------
3            19kuX6ge4WzE2cyRtAUozP1SSE9HR+
3.batch                               batch
4            19kuX6ge4WzE2cyRtAUozP1SSE9HR+
4.batch                               batch
5            19kuX6ge4WzE2cyRtAUozP1SSE9HR+
5.batch                               batch
9.batch                               batch
2                                    run.sh
2.batch                               batch

$ sacct --jobs=4                                             
       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
4            19kuX6ge4+      debug      alper          1  COMPLETED      0:0
4.batch           batch                 alper          1  COMPLETED      0:0

之后,当我这样做时:scontrol show job <job_id>,我将无法返回完整的工作信息。

$ scontrol show job 4                                       
slurm_load_jobs error: Invalid job id specified

这可能是什么原因?是否有任何替代方法来获取作业的信息,例如其RunTime.

4

1 回答 1

2

scontrol仅显示有关当前正在运行或最近完成的作业的信息。“最近完成”时间取决于安装,但默认为 5 分钟(我认为)。sacct从会计数据库返回信息,因此适用于所有工作。

于 2020-07-18T12:10:11.510 回答