我使用 Fortran 进行一些科学计算。我使用高性能计算。众所周知,当我们在 HPC 作业调度程序中提交作业时,我们还会为我们的作业指定挂钟时间限制。但是到了时间到了,如果作业还在写输出数据,就会终止,会导致数据中出现一些'NUL'值,给后期处理带来麻烦:
那么,我们是否可以设置一个内部机制,让我们的工作可以在 HPC 津贴时间结束前的某个时间和平地停止?
我使用 Fortran 进行一些科学计算。我使用高性能计算。众所周知,当我们在 HPC 作业调度程序中提交作业时,我们还会为我们的作业指定挂钟时间限制。但是到了时间到了,如果作业还在写输出数据,就会终止,会导致数据中出现一些'NUL'值,给后期处理带来麻烦:
那么,我们是否可以设置一个内部机制,让我们的工作可以在 HPC 津贴时间结束前的某个时间和平地停止?
在意识到你在问什么后,我发现我最近在我的程序中实现了类似的功能(提交https://bitbucket.org/LadaF/elmm/commits/f10a1b3421a3dd14fdcbe165aa70bf5c5001413f)。但我仍然必须手动设置时间限制。
最重要的部分:
time_stepping%clock_time_limit
是以秒为单位的时间限制。计算对应的系统时钟滴答数:
call system_clock(count_rate = timer_rate)
call system_clock(count_max = timer_max_count)
timer_count_time_limit = int( min(time_stepping%clock_time_limit &
* real(timer_rate, knd), &
real(timer_max_count, knd) * 0.999_dbl) &
, dbl)
启动计时器
call system_clock(count = time_steps_timer_count_start)
如果时间到了,检查计时器并退出主循环并error_exit
设置为.true.
if (mod(time_step,time_stepping%check_period)==0) then
if (master) then
error_exit = time_steps_timer_count_2 - time_steps_timer_count_start > timer_count_time_limit
if (error_exit) write(*,*) "Maximum clock time exceeded."
end if
MPI_Bcast the error exit to other processes
if (error_exit) exit
end if
现在,您可能希望自动从调度程序中获取时间限制。这将在不同的作业调度软件之间有所不同。会有一个环境变量,如$PBS_WALLTIME
. 请参阅在 PBS 作业脚本中获取 walltime,但请查看您的调度程序手册。