java - Java VM：1.6.0_17 和 1.6.0_18 上的可重现 SIGSEGV，如何报告？

Question

编辑：这个可重现的 SIGSEGV 发生在具有多个 proc 和超过 2GB 内存的 Linux 机器上，因此 Java 默认为 -server 模式。有趣的是，如果我强制“-client”，就不会再崩溃了……（我仍然不太确定如何处理我的可重现 SIGSEGV，但它仍然很有趣）。

首先请注意，这有点相关但与以下内容不同，因为在我们的例子中，它只是发生了一个 SIGSEGV，我们可以可靠地触发它：

JVM OutOfMemory 错误“死亡螺旋”（不是内存泄漏）

这是相关的，因为当我们向应用程序提供“大量数据”时就会发生这种情况：数据来自文本文件，然后经过数字处理（是的，Java 中的财务数字处理）。

我可以仅使用有效的 Java 代码可靠地将 JVM 触发到 SIGSEGV。

注意：我总是会导致 JVM 1.6.0_17 和 JVM 1.6.0_18 崩溃，这个问题不是关于如何解决这个问题（例如，使用 VM 参数可能会解决问题，但我不是在那之后，我想知道如何处理这个始终可重现的 SIGSEGV）。

我有一个解决方法，它只是在启动我们的应用程序时使用 Java 1.5（同时仍然使用 Java 1.6 在同一台机器上同时运行 IntelliJ IDEA 等），但我的问题是是否应该报告这件事并且，如果应该，如何在知道日志本身包含专有信息（完整的 hs_err_..._log）的情况下报告它。

可以排除硬件错误：

这发生在一个正常运行时间长达数月的工作站上（我只在发布影响我精简和强化的 Debian Linux 的关键安全补丁时才重新启动它，这真的不经常发生）并且应用程序永远不会崩溃（使它非常不太可能是那台机器上的硬件问题 [更多见下文]）
相同的应用程序在相同负载下的 JVM 1.5 下的同一台机器上完美运行（这就是我测试应用程序的方式：我只是在 1.5 VM 下启动它）
相同的应用程序在相同（巨大）负载下的数百台客户端机器上运行良好（在 Windows + JVM 1.5 或 1.6 上从未崩溃过一次，在 OS X + JVM 1.5 或 1.6 上从未崩溃过一次[崩溃意味着即时电话来自客户的电话])
同一台机器上的其他应用程序和相同的 1.6.0_17 或 1.6.0_18 JVM 永远不会崩溃（例如，我有两个 IntelliJ IDEA 实例作为同一台机器上的两个不同用户运行并且它们不会崩溃）
机器“定期”使用 memtest 进行测试（在安装新操作系统之前，最近一次发生在我安装 Debian Lenny 时，不久前）

这是可重现的按需 SIGSEGV：

... $uname -a
Linux saturn 2.6.26-2-686 #1 SMP Wed Nov 4 20:45:37 UTC 2009 i686 GNU/Linux
... $ export /home/wizard/jdk1.6.0_17/bin:$PATH
... $ java -version
java version "1.6.0_17"
Java(TM) SE Runtime Environment (build 1.6.0_17-b04)
Java HotSpot(TM) Server VM (build 14.3-b01, mixed mode)

启动应用程序，输入“大量数据”，等待几秒钟......

然后，对于 1.6.0_17，总是：

#
# A fatal error has been detected by the Java Runtime Environment:
#
#  SIGSEGV (0xb) at pc=0xb76d0080, pid=30793, tid=2514328464
#
# JRE version: 6.0_17-b04
# Java VM: Java HotSpot(TM) Server VM (14.3-b01 mixed mode linux-x86 )
# Problematic frame:
# V  [libjvm.so+0x4bc080]
#
# An error report file with more information is saved as:
# /home/wizard/hs_err_pid30793.log
#
# If you would like to submit a bug report, please visit:
#   http://java.sun.com/webapps/bugreport/crash.jsp

（请注意，在每个 SIGSEGV 上，'[libjvm.so+0x4bc080]' 行对于 1.6.0_17 都是一致的）

或 1.6.0_18：

#
# A fatal error has been detected by the Java Runtime Environment:
#
#  SIGSEGV (0xb) at pc=0xb77468f0, pid=722, tid=2514516880
#
# JRE version: 6.0_18-b07
# Java VM: Java HotSpot(TM) Server VM (16.0-b13 mixed mode linux-x86 )
# Problematic frame:
# V  [libjvm.so+0x4d88f0]
#
# An error report file with more information is saved as:
# /home/wizard/hs_err_pid722.log
#
# If you would like to submit a bug report, please visit:
#   http://java.sun.com/webapps/bugreport/crash.jsp
#
Aborted

（请注意，“[libjvm.so+0x4d88f0]”这一行对于每个 SIGSEGV 的 1.6.0_18 都是一致的）

问题是日志文件包含无法共享的专有信息。

重现一个重现问题的“小测试用例”也不现实：它类似于上面链接的问题，这只发生在向应用程序提供“大量数据”时。

请注意，完全相同的应用程序，在完全相同的硬件上，具有完全相同的 JVM，但另一个版本的 Linux（我之前有 Debian Etch）并没有触发该 SIGSEGV 一次。

但这并不意味着 JVM 没有问题：它仍然可能是 JVM 问题。

我应该报告这个以及如何报告？（请记住，编写“可重现的小型测试用例”是妄想，并且日志包含不应泄露的专有信息）。我应该只编辑日志并发送吗？

当您的日志包含专有信息并且重现问题的测试用例实际上不可行时，报告这种可重现的 SIGSEGV 的程序是什么？

你们有没有人成功打开过这样的错误，然后看到它在随后的 Java 版本中得到解决？

您认为报告这样的问题对“Java 社区”有好处，还是我不应该打扰，因为它不重要？

score 6 · Accepted Answer

我在升级到 JDK 1.6_18 时遇到了类似的问题，似乎可以使用以下选项解决：

-server
-Xms256m
-Xmx748m
-XX:MaxPermSize=128m

-verbose:gc
-XX:+PrintGCTimeStamps
-Xloggc:/tmp/gc.log
-XX:+PrintHeapAtGC
-XX:+PrintGCDetails
-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath="/tmp"

-XX:+UseParallelGC
-XX:-UseGCOverheadLimit

# Following options just to remote monitoring with jconsole, useful to see JVM behaviour at runtime
-Dcom.sun.management.jmxremote
-Dcom.sun.management.jmxremote.port=12345
-Dcom.sun.management.jmxremote.authenticate=false
-Dcom.sun.management.jmxremote.ssl=false
-Djava.rmi.server.hostname=MyHost

我仍然没有仔细检查（它是生产环境），但我认为错误是由于两个原因：

1) 关于堆和/或永久空间的错误设置（我认为 JDK 1.6 需要比以前的 JVM 版本更多的堆和永久空间）导致 OutOfMemoryError，但是

2）在错误的原始设置中有人写

-XX:+HeapDumpOnOutOfMemoryError="/tmp"

并不是

-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath="/tmp"

所以可能 JVM 无法编写堆转储，我们只得到了 SIGSEGV（以前的版本在工作目录中写了堆转储）。

也检查-server -XX:+UseParallelGC -XX:-UseGCOverheadLimit选项。我认为使用 VM 参数不是一种解决方法，但正确的方法也是因为垃圾收集器（并且不仅）在 1.5 和 1.6 之间发生了变化。

score 5 · Accepted Answer

问题是日志文件包含无法共享的专有信息。重现重现问题的“小测试用例”也不现实

如果您不能向 Sun 提供可重现的测试用例，他们甚至不会看它。即使您确实提供了可用的测试用例，他们也很有可能会忽略它。Sun 的错误提交过程还有很多不足之处。

我应该报告这个以及如何报告？

如果您无法提出可重现的测试用例，请不要打扰。如果他们无法重现问题，您希望他们做什么？

请注意，完全相同的应用程序，在完全相同的硬件上，具有完全相同的 JVM，但另一个版本的 Linux（我之前有 Debian Etch）并没有触发该 SIGSEGV 一次。

它是否可以在具有相同硬件和相同版本 Linux 的不同机器上工作？

score 1 · Accepted Answer

如果有帮助，您的崩溃报告中的错误提交链接有以下免责声明：

此外，Sun Microsystems 尊重您对隐私的渴望。从该计划收集的个人数据不会出售、提供或与 Sun 以外的组织共享。我们将使用这些数据与您沟通，以澄清有关您提交的报告和/或该报告状态的问题。您报告的问题可能会提供给其他 JDC 成员或 Sun 客户，但您的个人数据将被保密。如果您对上述条件不满意，请不要按提交按钮。如果您有任何问题，请参阅我们的隐私政策。

就个人而言，如果可以使用日志移交有问题的代码段，如果数据不太敏感（也许数据可以在日志中被屏蔽或混淆？），我会报告它。

你不可能真正判断这个 bug 对其他人是否“重要”，除非你能知道它的真正原因。报告它可能是 Sun 的工程师找出严重问题原因的第一步。

score 0 · Accepted Answer

你应该问自己的第一个问题是：

我使用的是官方支持的 Linux 发行版吗？

如果没有，请切换到一个。

如果是，请向 Sun 报告！

java - Java VM：1.6.0_17 和 1.6.0_18 上的可重现 SIGSEGV，如何报告？

4 回答 4

Related

Reference