我对挂起的负载平衡 Tomcat 服务器有一个讨厌的问题。任何帮助将不胜感激。
系统
我在 HotSpot Server 14.3-b01 (Java 1.6.0_17-b04) 上运行 Tomcat 6.0.26,三台服务器位于另一台充当负载平衡器的服务器后面。负载均衡器运行 Apache (2.2.8-1) + MOD_JK (1.2.25)。所有服务器都运行 Ubuntu 8.04。
Tomcat 配置了 2 个连接器:一个 AJP 连接器和一个 HTTP 连接器。AJP 将与负载均衡器一起使用,而 HTTP 则由开发团队用于直接连接到选定的服务器(如果我们有理由这样做)。
我在 Tomcat 服务器上安装了 Lambda Probe 1.7b,以帮助我诊断和解决即将描述的问题。
问题
问题出在:应用服务器启动大约 1 天后,JK 状态管理器开始报告ERR
Tomcat2 的状态。它只会卡在这种状态,到目前为止我发现的唯一解决方法是对盒子进行 ssh 并重新启动 Tomcat。
我还必须提到,当 Tomcat 服务器处于此状态时,JK 状态管理器需要更长的时间来刷新。
最后,JK 状态管理器上卡住的 Tomcat 的“忙碌”计数总是很高,并且本身不会下降——我必须重新启动 Tomcat 服务器,等待,然后重置 JK 上的工作程序。
分析
由于我在每个 Tomcat 上都有 2 个连接器(AJP 和 HTTP),我仍然可以通过 HTTP 连接到应用程序。该应用程序像这样工作得很好,非常非常快。这是完全正常的,因为我是唯一使用此服务器的人(因为 JK 停止将请求委托给此 Tomcat)。
为了更好地理解这个问题,我从一个不再响应的 Tomcat 和另一个最近重新启动的 Tomcat(比如 1 小时前)中获取了一个线程转储。
正常响应 JK 的实例显示大部分 TP-ProcessorXXX 线程处于“可运行”状态,堆栈跟踪如下:
java.net.SocketInputStream.socketRead0 ( native code )
java.net.SocketInputStream.read ( SocketInputStream.java:129 )
java.io.BufferedInputStream.fill ( BufferedInputStream.java:218 )
java.io.BufferedInputStream.read1 ( BufferedInputStream.java:258 )
java.io.BufferedInputStream.read ( BufferedInputStream.java:317 )
org.apache.jk.common.ChannelSocket.read ( ChannelSocket.java:621 )
org.apache.jk.common.ChannelSocket.receive ( ChannelSocket.java:559 )
org.apache.jk.common.ChannelSocket.processConnection ( ChannelSocket.java:686 )
org.apache.jk.common.ChannelSocket$SocketConnection.runIt ( ChannelSocket.java:891 )
org.apache.tomcat.util.threads.ThreadPool$ControlRunnable.run ( ThreadPool.java:690 )
java.lang.Thread.run ( Thread.java:619 )
被卡住的实例显示大部分(全部?)TP-ProcessorXXX 线程处于“等待”状态。这些具有以下堆栈跟踪:
java.lang.Object.wait ( native code )
java.lang.Object.wait ( Object.java:485 )
org.apache.tomcat.util.threads.ThreadPool$ControlRunnable.run ( ThreadPool.java:662 )
java.lang.Thread.run ( Thread.java:619 )
我不知道 Tomcat 的内部结构,但我会推断“等待”线程只是位于线程池中的线程。那么,如果它们是在线程池中等待的线程,为什么 Tomcat 不让它们处理来自 JK 的请求呢?
编辑:我不知道这是否正常,但 Lambda Probe 在状态部分向我显示,有很多线程处于KeepAlive
状态。这是否与我遇到的问题有关?
解决方案?
所以,正如我之前所说,我发现的唯一解决方法是停止 Tomcat 实例,停止 JK 工作程序,等待后者的繁忙计数慢慢下降,再次启动 Tomcat,然后再次启用 JK 工作程序。
是什么导致了这个问题?我应该如何进一步调查?我能做些什么来解决它?
提前致谢。