1

我正在 Linux 中以 C 语言实现作业控制外壳,作为操作系统相关主题的项目。我有一个执行子进程管理的 main() 函数,它帮助了一个链接列表,如此处所示,其中存储了背景和暂停的作业信息:

typedef struct job_
{
    pid_t pgid; /* group id = process lider id */
    char * command; /* program name */
    enum job_state state;
    struct job_ *next; /* next job in the list */
} job;

每次子进程退出或停止时,都会向父进程发送一个 SIGCHLD 以得到通知。然后,我有一个信号处理程序,如此处所示,对于该作业状态链表的每个节点,检查该节点中表示的进程是否已退出,如果退出,则将该节点从链表中删除。这是 SIGCHLD 处理程序的代码,其中 'job_list' 是存储信息的链表:

void mySIGCHLD_Handler(int signum) {
    block_SIGCHLD();
    if (signum == 17) {
        job *current_node = job_list->next, *node_to_delete = NULL;
        int process_status, process_id_deleted;

        while (current_node) {

            /* Wait for a child process to finish.
            *    - WNOHANG: return immediately if the process has not exited
            */
            waitpid(current_node->pgid, &process_status, WNOHANG);

            if (WIFEXITED(process_status) != 0) {
                node_to_delete = current_node;
                current_node = current_node->next;
                process_id_deleted = node_to_delete->pgid;
                if (delete_job(job_list, node_to_delete)) {
                printf("Process #%d deleted from job list\n", process_id_deleted);
                } else {
                    printf("Process #%d could not be deleted from job list\n", process_id_deleted);
                }
            } else {
                current_node = current_node->next;
            }
        }
    }
    unblock_SIGCHLD();
}

问题是,当处理程序被调用时,一些不应该被删除的条目,因为它们所代表的进程没有退出,当它们不应该被删除时被删除。任何人都会知道为什么会这样?

谢谢你,对你失去的时间感到抱歉:(

4

1 回答 1

3

我在这段代码中看到了很多问题,但最直接的问题可能在这里:

        waitpid(current_node->pgid, &process_status, WNOHANG);
        if (WIFEXITED(process_status) != 0) {

waitpid(pid, &status, WNOHANG)由于进程没有退出而返回时,它不会向 写入任何内容status,因此后续if会在垃圾上分支。waitpid在假设status有意义之前,您需要检查实际返回值。

最重要的其他问题是:

  • 内核只允许发送一个SIGCHLD来告诉你有几个进程已经退出。当你得到 aSIGCHLD时,你需要waitpid(0, &status, WNOHANG)在一个循环中调用,直到它告诉你没有更多的进程等待,并且你需要处理(不是双关语)它告诉你的所有退出进程 ID。

  • printf调用异步信号处理程序或free从异步信号处理程序调用是不安全的。而是将终止的进程添加到延迟任务列表中。确保在使用该列表的主循环代码中阻止 SIGCHLD。

  • 不要SIGCHLD在处理程序中阻止和解除阻止自己;有一个不可避免的竞争条件。相反,让内核通过正确设置信号处理程序以原子方式为您做这件事:使用sigaction而不是SA_NODEFER放入sa_flags. (一定SA_RESTART加入sa_flags,除非你有充分的理由不加入。)

  • 文字数字 17 应该是信号常数SIGCHLD一些信号编号在整个历史上的所有 Unix 中都是稳定的,但SIGCHLD不是其中之一。

于 2018-05-16T18:17:42.207 回答