显然,mpirun
使用 SIGINT 处理程序将 SIGINT 信号“转发”到它产生的每个进程。
这意味着您可以为启用 mpi 的代码编写中断处理程序,执行mpirun -np 3 my-mpi-enabled-executable
,然后将为三个进程中的每一个进程引发 SIGINT。不久之后,mpirun 退出。当您有一个仅打印错误消息然后退出的小型自定义处理程序时,这可以正常工作。但是,当您的自定义中断处理程序正在执行一项重要的工作(例如,进行严肃的计算或持久化数据)时,处理程序不会运行到完成。我假设这是因为 mpirun 决定过早退出。
这是执行后按下ctrl-c
(即导致 SIGINT)时的标准错误my-mpi-enabled-executable
。这是理想的预期行为:
interrupted by signal 2.
running viterbi... done.
persisting parameters... done.
the master process will now exit.
这是ctrl-c
执行后按下时的标准错误mpirun -np 1 my-mpi-enabled-executable
。这是有问题的行为:
interrupted by signal 2.
running viterbi... mpirun: killing job...
--------------------------------------------------------------------------
mpirun noticed that process rank 0 with PID 8970 on node pharaoh exited on signal 0 (Unknown signal 0).
--------------------------------------------------------------------------
mpirun: clean termination accomplished
回答以下任何问题将解决我的问题:
- 如何覆盖 mpirun SIGINT 处理程序(如果可能的话)?
- 如何避免在 mpirun 终止后立即终止生成的进程 mpirun?
- 在 mpirun 终止之前,mpirun 可能会向子进程发送另一个信号吗?
- 有没有办法“捕获”所谓的“信号0(未知信号0)”(参见上面的第二个stderr)?
我在 Linux 上运行 openmpi-1.6.3。