情况:
- 多个进程共享同一个文件描述符表。
- 每个进程都监听自己的 epoll 实例。
- 所有涉及它们的套接字和调用都是非阻塞的。
- 在这些进程中,只有进程 A 将监听套接字添加到其 epoll 实例中。
- 进程A知道所有其他进程的epolls的fds。
- 当一个新的套接字(即一个新的连接)到达时,进程 A 将它添加到其他进程之一的 epoll 实例中......
...像这样:
int new_sfd;
while ((new_sfd = accept4(listening_fd, NULL, NULL, SOCK_NONBLOCK)) != -1) {
if (epoll_ctl(other_epoll_fds[new_sfd % PROCESS_C], EPOLL_CTL_ADD, new_sfd,
&(struct epoll_event){
.data = {.fd = new_sfd},
.events = EPOLLIN | EPOLLOUT | EPOLLRDHUP | EPOLLET
}) == -1) {
perror("Failed to add a new socket to an epoll instance");
close(new_sfd);
}
}
if (errno != EAGAIN) {
perror("Failed to accept one or more incoming connections");
}
这似乎有效(即在这个阶段没有发生错误)。当一个连接进入进程 A 时,它被添加到进程 B 的 epoll 中,之后进程 B 得到一个设置了 EPOLLIN 标志的事件,正如预期的那样。然后进程B通过读取接收到的epoll_event结构的data.fd成员来获取新socket的fd,并recv()
在该fd上尝试a。
事情出乎意料地出错了。recv()
返回 -1 并出现以下错误:Socket operation on non-socket
.
是什么赋予了?通过在各处插入大量调试printf()
语句,我彻底验证了accept4()
进程 A 返回的 fd 值实际上与我作为第一个参数传递给recv()
进程 B 的 fd 值相同(同样,所有进程共享相同的文件描述符表),所以我无法理解这一点。帮助?!丁: