1

我有一个使用 execve 生成​​其他进程的程序:

  s32 ret = execve( argv[0], argv.data(), (char* const*) req.posixEnv() );

然后稍后在一个循环中,我调用 waitpid 来观察进程何时终止:

while( 1 )
{
  readOutputFromChildProcess( pid );

  int status;
  s32 retPid = waitpid( pid, &status, WNOHANG );

  if ( retPid < 0 )
  {
     if ( errno == ECHILD )
     {
         // I don't expect to ever get this error - but I do. why?
         printf( "Process gone before previous wait. Return status lost.\n" );
         assert(0); 
     } else {
         // other real errors handled here.
         handleError();
         break;
     }
  }

  if ( retPid == 0 )
  {
     waitSomeTime();
     continue; 
  }

  processValidResults( status );
  break;
}

我已经大大简化了代码。我的理解是,一旦你产生了一个进程,进程表条目就会一直存在,直到调用者调用“waitpid”并获得一个大于零的返回值和一个有效的返回状态。

但是在某些情况下似乎发生的是进程自行终止,当我调用waitpid时,它返回-1,错误为ECHILD

ECHILD 表示在我调用 waitpid 时,进程表中没有具有该 ID 的进程。所以要么我的 pid 无效——而且我已经仔细检查过——它是有效的。

或 - 在此过程完成后已调用 waitpid - 在这种情况下,我无法从此过程中获取返回码。

该程序是多线程的。我也检查过我没有太早调用waitpid。它发生在几次“等待”之后。

有没有其他方法可以在不调用 waitpid 的情况下清理进程表条目?如何确保始终获得返回码?

@明确忽略 SIGCHLD:

好的,所以我知道明确忽略它会导致 waitpid() 失败。我没有明确地忽略它,但我确实设置了一些信号处理程序来捕获另一个地方的崩溃,如下所示:

void kxHandleCrashes()
{
   struct sigaction sa;
   sa.sa_flags = SA_SIGINFO;
   sa.sa_sigaction = abortHandler;
   sigemptyset( &sa.sa_mask );

   sigaction( SIGABRT, &sa, NULL );
   sigaction( SIGSEGV, &sa, NULL );
   sigaction( SIGBUS,  &sa, NULL );
   sigaction( SIGILL,  &sa, NULL );
   sigaction( SIGFPE,  &sa, NULL );
   sigaction( SIGPIPE, &sa, NULL );

   // Should I add aline like this:
   // sigaction( SIGCHLD, &sa, NULL );
}
4

2 回答 2

4

我有类似的问题 - waitpid 会因 ECHLD 而失败。子进程正在运行,我没有触摸 SIGCHLD 处理程序(默认处理程序到位),但每次仍然在 waitpid 上获取 ECHLD。

经过几个小时的调查,事实证明我分叉了孩子,然后妖魔化了父母(它分叉了它),这有效地将所有孩子变成了孤儿。

我在分叉子代之前移动了父守护进程,一切都开始完美无缺。

因此,如果您收到这个神秘的 ECHLD 错误,并且您没有弄乱 SIGCHLD 信号处理程序 - 检查这些孩子是否实际上仍然是您的孩子,并且孩子的 PPID 等于父母的 PID。

于 2014-06-26T00:17:42.440 回答
0

您的程序示例缺少一条重要信息:您如何声明errno

您应该确保包含errno.h.

请参阅线程安全和 POSIX.1的 errno 重新定义部分。

于 2013-04-12T20:53:47.950 回答