大多数 linux 发行版都有28232 个可用的临时端口。服务器需要为每个连接提供一个临时端口,以便为新连接释放主要端口(即 http 服务器端口 80)。
因此,如果服务器正在处理 php5-fpm 通过 TCP 生成的内容的每秒 1000 个请求,那么您将分配 2000 个端口/秒。情况并非如此,可能 5% 的 PHP 和 95% 的静态(无端口分配)和 IIRC nginx<->php-fpm 为后续请求保持端口打开。有很多因素会影响这些数字,但为了争论,让我们说 1000 端口分配/秒。
从表面上看,这似乎不是问题,但默认情况下,端口不会立即释放并可供新连接使用。这种行为有多种原因,我强烈建议在此处(或其他任何地方)任意进行详细更改之前彻底了解TCP 。
主要是一种称为 TIME_WAIT 的连接状态(套接字在关闭后等待处理仍在网络中的数据包,netstat 手册页)是阻止端口被释放以供重用的原因。在最近的(全部?)Linux 内核上,TIME_WAIT 被硬编码为 60 秒,根据RFC793,连接可能会在 TIME_WAIT 中停留长达四分钟!
这意味着至少 1000 个端口将使用至少 60 秒。在现实世界中,您需要考虑传输时间、保持活动请求(多个请求使用相同的连接)和服务端口(在 nginx 和后端服务器之间)。让我们任意将其降低到 750 个端口/秒。
在大约 37 秒内,所有可用端口都将用完(28232 / 750 = 37)。这是个问题,因为释放一个端口需要 60 秒!
要查看所有正在使用的端口,请运行apache bench或类似的东西,它可以生成您正在调整的每秒请求数。然后运行:
root:~# netstat -n -t -o | grep timewait
你会得到类似的输出(但很多很多行):
tcp 0 0 127.0.0.1:40649 127.1.0.2:80 TIME_WAIT timewait (57.58/0/0)
tcp 0 0 127.1.0.1:9000 127.0.0.1:50153 TIME_WAIT timewait (57.37/0/0)
tcp 0 0 127.0.0.1:40666 127.1.0.2:80 TIME_WAIT timewait (57.69/0/0)
tcp 0 0 127.0.0.1:40650 127.1.0.2:80 TIME_WAIT timewait (57.58/0/0)
tcp 0 0 127.0.0.1:40662 127.1.0.2:80 TIME_WAIT timewait (57.69/0/0)
tcp 0 0 127.0.0.1:40663 127.1.0.2:80 TIME_WAIT timewait (57.69/0/0)
tcp 0 0 127.0.0.1:40661 127.1.0.2:80 TIME_WAIT timewait (57.61/0/0)
对于分配的端口总数:
root:~# netstat -n -t -o | wc -l
如果您收到失败的请求,该数字将位于/接近 28232。
如何解决问题?
将临时端口的数量从 28232 增加到 63976。
sysctl -w net.ipv4.ip_local_port_range="1024 65000"
允许 linux 在超时到期之前重用 TIME_WAIT 端口。
sysctl -w net.ipv4.tcp_tw_reuse="1"
额外的 IP 地址。