20

更新:这看起来像是内存问题。一个 3.8 Gb 的 Hprof 文件表明,当这种“阻塞”发生时,JVM 正在转储其堆。我们的运营团队看到该站点没有响应,进行了堆栈跟踪,然后关闭了该实例。我相信他们在堆转储完成之前关闭了该站点。日志没有错误/异常/问题的证据——可能是因为 JVM 在生成错误消息之前就被杀死了。

原始问题 我们最近遇到了一个应用程序出现的情况——对最终用户来说——挂起。我们在应用程序重新启动之前获得了堆栈跟踪,我发现了一些令人惊讶的结果:在 527 个线程中,463 个线程状态为 BLOCKED。

过去 过去阻塞的线程通常有这个问题: 1)一些明显的瓶颈:例如一些数据库记录锁定或文件系统锁定问题导致其他线程等待。2) 所有被阻塞的线程都会阻塞在同一个类/方法上(例如 jdbc 或文件系统类)

异常数据 在这种情况下,我看到各种类/方法被阻止,包括 jvm 内部类、jboss 类、log4j 等,以及应用程序类(包括 jdbc 和 lucene 调用)

什么会导致 JVM 阻塞 log4j.Hierarchy.getLogger、java.lang.reflect.Constructor.newInstance的问题?显然某些资源“稀缺”,但哪种资源?

谢谢

将要

堆栈跟踪摘录

http-0.0.0.0-80-417" daemon prio=6 tid=0x000000000f6f1800 nid=0x1a00 waiting for monitor entry [0x000000002dd5d000]
   java.lang.Thread.State: BLOCKED (on object monitor)
                at sun.reflect.GeneratedConstructorAccessor68.newInstance(Unknown Source)
                at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)
                at java.lang.reflect.Constructor.newInstance(Constructor.java:513)
                at java.lang.Class.newInstance0(Class.java:355)
                at java.lang.Class.newInstance(Class.java:308)
                at org.jboss.ejb.Container.createBeanClassInstance(Container.java:630)

http-0.0.0.0-80-451" daemon prio=6 tid=0x000000000f184800 nid=0x14d4 waiting for monitor entry [0x000000003843d000]
   java.lang.Thread.State: BLOCKED (on object monitor)
                at java.lang.Class.getDeclaredMethods0(Native Method)
                at java.lang.Class.privateGetDeclaredMethods(Class.java:2427)
                at java.lang.Class.getMethod0(Class.java:2670)

"http-0.0.0.0-80-449" daemon prio=6 tid=0x000000000f17d000 nid=0x2240 waiting for monitor entry [0x000000002fa5f000]
   java.lang.Thread.State: BLOCKED (on object monitor)
                at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.register(Http11Protocol.java:638)
                - waiting to lock <0x00000007067515e8> (a org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler)
                at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.createProcessor(Http11Protocol.java:630)


"http-0.0.0.0-80-439" daemon prio=6 tid=0x000000000f701800 nid=0x1ed8 waiting for monitor entry [0x000000002f35b000]
   java.lang.Thread.State: BLOCKED (on object monitor)
                at org.apache.log4j.Hierarchy.getLogger(Hierarchy.java:261)
                at org.apache.log4j.Hierarchy.getLogger(Hierarchy.java:242)
                at org.apache.log4j.LogManager.getLogger(LogManager.java:198)
4

1 回答 1

20

这些大致按我尝试它们的顺序列出,具体取决于收集的证据:

  • 你看过GC 行为吗?你有记忆压力吗?这可能会导致newInstance()上面的其他一些内容被阻止。运行您的虚拟机-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -verbose:gc并记录输出。您是否在故障/锁定时间附近看到过多的 GC 时间?
    • 条件可重复吗?如果是这样,请尝试在 JVM (-Xmx) 中使用不同的堆大小,并查看行为是否发生重大变化。如果是这样,请查找内存泄漏或为您的应用正确调整堆大小。
    • 如果前一个很难,并且您没有得到OutOfMemoryError应有的时间,您可以调整 GC 可调参数...请参阅JDK6.0 XX 选项JDK6.0 GC 调整白皮书。专门查看-XX:+UseGCOverheadLimit-XX:+GCTimeLimit相关的选项。(注意这些没有很好的记录,但可能有用......)
  • 会不会出现僵局?只有堆栈跟踪摘录,无法在这里确定。在线程被阻塞的监视器状态中查找周期(与它们持有的状态相比)。我相信jconsole可以为您做到这一点......(是的,在线程选项卡下,“检测死锁”
  • 尝试做几个重复的堆栈跟踪,看看哪些变化与保持不变......
  • 进行取证...对于每个显示“BLOCKED”的堆栈条目,查找特定的代码行并确定那里是否有监视器。如果有一个实际的监视器采集,应该很容易识别限制资源。但是,如果没有透明可用的监视器,您的某些线程可能会显示阻塞,这些会更棘手......
于 2010-10-25T16:32:31.290 回答