10

我对挂起的负载平衡 Tomcat 服务器有一个讨厌的问题。任何帮助将不胜感激。

系统

我在 HotSpot Server 14.3-b01 (Java 1.6.0_17-b04) 上运行 Tomcat 6.0.26,三台服务器位于另一台充当负载平衡器的服务器后面。负载均衡器运行 Apache (2.2.8-1) + MOD_JK (1.2.25)。所有服务器都运行 Ubuntu 8.04。

Tomcat 配置了 2 个连接器:一个 AJP 连接器和一个 HTTP 连接器。AJP 将与负载均衡器一起使用,而 HTTP 则由开发团队用于直接连接到选定的服务器(如果我们有理由这样做)。

我在 Tomcat 服务器上安装了 Lambda Probe 1.7b,以帮助我诊断和解决即将描述的问题。

问题

问题出在:应用服务器启动大约 1 天后,JK 状态管理器开始报告ERRTomcat2 的状态。它只会卡在这种状态,到目前为止我发现的唯一解决方法是对盒子进行 ssh 并重新启动 Tomcat。

我还必须提到,当 Tomcat 服务器处于此状态时,JK 状态管理器需要更长的时间来刷新。

最后,JK 状态管理器上卡住的 Tomcat 的“忙碌”计数总是很高,并且本身不会下降——我必须重新启动 Tomcat 服务器,等待,然后重置 JK 上的工作程序。

分析

由于我在每个 Tomcat 上都有 2 个连接器(AJP 和 HTTP),我仍然可以通过 HTTP 连接到应用程序。该应用程序像这样工作得很好,非常非常快。这是完全正常的,因为我是唯一使用此服务器的人(因为 JK 停止将请求委托给此 Tomcat)。

为了更好地理解这个问题,我从一个不再响应的 Tomcat 和另一个最近重新启动的 Tomcat(比如 1 小时前)中获取了一个线程转储。

正常响应 JK 的实例显示大部分 TP-ProcessorXXX 线程处于“可运行”状态,堆栈跟踪如下:

java.net.SocketInputStream.socketRead0 ( native code )
java.net.SocketInputStream.read ( SocketInputStream.java:129 )
java.io.BufferedInputStream.fill ( BufferedInputStream.java:218 )
java.io.BufferedInputStream.read1 ( BufferedInputStream.java:258 )
java.io.BufferedInputStream.read ( BufferedInputStream.java:317 )
org.apache.jk.common.ChannelSocket.read ( ChannelSocket.java:621 )
org.apache.jk.common.ChannelSocket.receive ( ChannelSocket.java:559 )
org.apache.jk.common.ChannelSocket.processConnection ( ChannelSocket.java:686 )
org.apache.jk.common.ChannelSocket$SocketConnection.runIt ( ChannelSocket.java:891 )
org.apache.tomcat.util.threads.ThreadPool$ControlRunnable.run ( ThreadPool.java:690 )
java.lang.Thread.run ( Thread.java:619 )

被卡住的实例显示大部分(全部?)TP-ProcessorXXX 线程处于“等待”状态。这些具有以下堆栈跟踪:

java.lang.Object.wait ( native code )
java.lang.Object.wait ( Object.java:485 )
org.apache.tomcat.util.threads.ThreadPool$ControlRunnable.run ( ThreadPool.java:662 )
java.lang.Thread.run ( Thread.java:619 ) 

我不知道 Tomcat 的内部结构,但我会推断“等待”线程只是位于线程池中的线程。那么,如果它们是在线程池中等待的线程,为什么 Tomcat 不让它们处理来自 JK 的请求呢?

编辑:我不知道这是否正常,但 Lambda Probe 在状态部分向我显示,有很多线程处于KeepAlive状态。这是否与我遇到的问题有关?

解决方案?

所以,正如我之前所说,我发现的唯一解决方法是停止 Tomcat 实例,停止 JK 工作程序,等待后者的繁忙计数慢慢下降,再次启动 Tomcat,然后再次启用 JK 工作程序。

是什么导致了这个问题?我应该如何进一步调查?我能做些什么来解决它?

提前致谢。

4

4 回答 4

3

您是否配置了 JVM 内存设置和垃圾收集?您可以在设置 CATALINA_OPTS 的地方执行此操作

例子:

CATALINA_OPTS="$CATALINA_OPTS -server -Xnoclassgc -Djava.awt.headless=true"
CATALINA_OPTS="$CATALINA_OPTS -Xms1024M -Xmx5120M -XX:MaxPermSize=256m"
CATALINA_OPTS="$CATALINA_OPTS -XX:-UseParallelGC"
CATALINA_OPTS="$CATALINA_OPTS -Xnoclassgc"

GC 设置最好有多种理念。这取决于您正在执行的代码类型。上面的配置最适合 JSP 密集型环境(taglibs 而不是 MVC 框架)。

于 2010-06-15T18:24:33.103 回答
1

检查您的保活时间设置。看来您正在使线程进入保活状态,并且它们不会超时。您的服务器似乎没有在合理的时间内检测到客户端断开连接。涉及多个超时和计数变量。

于 2010-06-05T20:44:54.257 回答
1

我对 Weblogic 也有过类似的问题。原因是太多线程在等待网络响应,Weblogic 内存不足。Tomcat 的行为可能与此相同。您可以尝试的事情是:

  • 减少连接的超时值。
  • 减少同时连接的总量,以便当达到该数量时tomcat不会启动新线程。
  • 容易修复,但不能纠正根本原因:它可能是 tomcat 处于内存不足状态,即使它还没有出现在日志中。如前所述增加tomcat的内存。
于 2010-06-18T10:27:33.350 回答
1

首先检查您的日志文件。

我认为默认日志文件位于 /var/log/daemon.log 中。(此文件不仅包含来自 tomcat 的日志)

于 2010-05-26T12:11:50.717 回答