1

我使用 -j 开关运行 sacct,以获得特定的作业 ID。根据其他命令行开关,同一作业会报告两个完全不同的结果。这里有三个例子。第二个显示与其他两个不同的结果。

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO  -S 2020-07-26T00:00:00 -E 2020-07-27T23:59:59  --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401                        JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401         CANCELLED+  UNLIMITED 2020-07-26T20:45:31 2020-07-27T08:36:10   11:50:39                              1          2
1401.batch    COMPLETED            2020-07-26T20:45:31 2020-07-27T08:36:17   11:50:46    103856K    619812K        1          2

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO  -S 2020-07-26T00:00:00 -E 2020-07-26T23:59:59  --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401
       JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401          NODE_FAIL  UNLIMITED 2020-06-15T09:38:38 2020-07-26T00:17:26 40-14:38:48                              1          2

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO    --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401
       JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401         CANCELLED+  UNLIMITED 2020-07-26T20:45:31 2020-07-27T08:36:10   11:50:39                              1          2
1401.batch    COMPLETED            2020-07-26T20:45:31 2020-07-27T08:36:17   11:50:46    103856K    619812K        1          2

为什么同一工作的开始/结束时间不同?一个报告运行时间为 11 小时,另一个报告运行时间为 40 天!

非常感谢您的任何见解!

4

1 回答 1

1

当两个作业具有相同的 JobId 时,通常会发生这种情况。sacct文档说:

如果重置 Slurm 作业 ID,则某些作业编号可能会在记帐日志文件中出现多次,但引用不同的作业。此类作业可以通过数据记录中的“提交”时间戳来区分。

尝试使用该选项运行sacct命令。--duplicates

于 2020-07-30T09:21:33.060 回答