java - 对无限制的 Java 驻留集大小 (RSS) 增长进行故障排除

Question

我有一个独立的 Java 应用程序，它具有：

-Xmx1024m -Xms1024m -XX:MaxPermSize=256m -XX:PermSize=256m

随着时间的推移，它会占用越来越多的内存，开始交换（并变慢）并最终死了很多次（不是 OOM+dump，只是死了，/var/log/messages 上什么都没有）。

到目前为止我已经尝试过：

堆转储：活动对象从 1G 堆中占用 200-300Mb --> 可以使用堆
活动线程的数量相当恒定（~60-70）-> 可以使用线程堆栈
JMX 在某些时候停止回答（mb 它回答但超时时间较低）
关闭交换 - 它死得更快
strace - 似乎一切都变慢了，应用程序仍然没有死，并且不确定那里看起来有哪些东西
检查顶部：VIRT 增长到 5.5Gb，RSS 增长到 3.7 Gb

检查 vmstat（显然我们开始交换）：

 --------------------------procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
Sun Jul 22 16:10:26 2012:  r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
Sun Jul 22 16:48:41 2012:  0  0 138652 2502504  40360 706592    1    0   169    21 1047  206 20  1 74  4  0
. . . 
Sun Jul 22 18:10:59 2012:  0  0 138648  24816  58600 1609212    0    0   124   669  913 24436 43 22 34  2  0
Sun Jul 22 19:10:22 2012: 33  1 138644  33304   4960 1107480    0    0   100   536  810 19536 44 22 23 10  0
Sun Jul 22 20:10:28 2012: 54  1 213916  26928   2864 578832    3  360   100   710  639 12702 43 16 30 11  0
Sun Jul 22 21:10:43 2012:  0  0 629256  26116   2992 467808   84  176   278  1320 1293 24243 50 19 29  3  0
Sun Jul 22 22:10:55 2012:  4  0 772168  29136   1240 165900  203   94   435  1188 1278 21851 48 16 33  2  0
Sun Jul 22 23:10:57 2012:  0  1 2429536  26280   1880 169816 6875 6471  7081  6878 2146 8447 18 37  1 45  0

sar 还显示稳定的系统百分比增长 = 交换：

 15:40:02          CPU     %user     %nice   %system   %iowait    %steal     %idle
 17:40:01          all     51.00      0.00      7.81      3.04      0.00     38.15
 19:40:01          all     48.43      0.00     18.89      2.07      0.00     30.60
 20:40:01          all     43.93      0.00     15.84      5.54      0.00     34.70
 21:40:01          all     46.14      0.00     15.44      6.57      0.00     31.85
 22:40:01          all     44.25      0.00     20.94      5.43      0.00     29.39
 23:40:01          all     18.24      0.00     52.13     21.17      0.00      8.46
 12:40:02          all     22.03      0.00     41.70     15.46      0.00     20.81

检查 pmap 给出了以下最大的贡献者：

  000000005416c000 1505760K rwx--    [ anon ]
  00000000b0000000 1310720K rwx--    [ anon ]
  00002aaab9001000 2079748K rwx--    [ anon ]

试图将我从 pmap 中获得的地址与 strace 倾倒的东西相关联，但我没有找到匹配项
添加更多内存是不切实际的（只是让问题稍后出现）
无法切换 JVM（环境不受我们控制）

问题是： 我还能尝试找出问题的原因或尝试解决它吗？

score 1 · Accepted Answer

您的 JVM 中的某些东西正在使用“无限”数量的非堆内存。一些可能的候选人是：

线程堆栈。
由一些本机代码库分配的本机堆。
内存映射文件。

当您进行线程堆栈转储时，第一种可能性将显示为大量（并且越来越多）线程。（检查一下……好吗？）

如果您的应用程序（或它使用的某些第三部分库）不使用任何本机库，您可以（可能）消除第二个。

如果您的应用程序（或它使用的某些第三部分库）不使用内存映射文件，则可以消除第三个。

我猜你没有看到 OOME 的原因是你的 JVM 被 Linux OOM 杀手杀死了。JVM 也有可能在本机代码中摆脱困境（例如，由于 malloc 故障未得到正确处理），但我认为 JVM 崩溃转储将是更可能的结果......

score 1 · Accepted Answer

问题出在附加的分析器库中 - 它记录了 CPU 调用/分配站点，因此需要内存来存储它。

所以，这里的人为因素:)

score 1 · Accepted Answer

Java 和 glibc >= 2.10（包括 Ubuntu >= 10.04，RHEL >= 6）存在一个已知问题。

解决方法是设置这个环境。多变的： export MALLOC_ARENA_MAX=4

有一篇关于设置 MALLOC_ARENA_MAX 的 IBM 文章 https://www.ibm.com/developerworks/community/blogs/kevgrig/entry/linux_glibc_2_10_rhel_6_malloc_may_show_excessive_virtual_memory_usage?lang=en

这篇博文说

众所周知，常驻内存会以类似于内存泄漏或内存碎片的方式蠕动。

在 Google 或 SO 上搜索 MALLOC_ARENA_MAX 以获取更多参考。

您可能还想调整其他 malloc 选项以优化分配内存的低碎片：

# tune glibc memory allocation, optimize for low fragmentation
# limit the number of arenas
export MALLOC_ARENA_MAX=2
# disable dynamic mmap threshold, see M_MMAP_THRESHOLD in "man mallopt"
export MALLOC_MMAP_THRESHOLD_=131072
export MALLOC_TRIM_THRESHOLD_=131072
export MALLOC_TOP_PAD_=131072
export MALLOC_MMAP_MAX_=65536

java - 对无限制的 Java 驻留集大小 (RSS) 增长进行故障排除

3 回答 3

Related

Reference