背景
我们有一个大约 20 个 linux 刀片的池。有些运行 Suse,有些运行 Redhat。ALL 共享 NAS 空间,包含以下 3 个文件夹:
- /NAS/app/java - 指向 Java JDK 安装的符号链接。当前版本 1.5.0_10
- /NAS/app/lib - 指向我们应用程序版本的符号链接。
- /NAS/data - 写入输出的目录
我们所有的机器都有 2 个处理器(超线程),具有 4gb 的物理内存和 4gb 的交换空间。我们将每台机器在给定时间可以处理的“作业”数量限制为 6 个(这个数字可能需要更改,但这不属于当前问题,因此请暂时忽略它)。
我们的一些作业将最大堆大小设置为 512mb,而另一些作业将最大堆大小保留为 2048mb。同样,我们意识到如果在同一台机器上启动 6 个作业并将堆大小设置为 2048,我们可能会超出可用内存,但据我们所知,这还没有发生。
问题
有时,作业会立即失败并显示以下消息:
Error occurred during initialization of VM
Could not reserve enough space for object heap
Could not create the Java virtual machine.
我们过去常常将此归咎于在同一台机器上同时运行的作业太多。这个问题很少发生(可能每月一次),我们只需重新启动它,一切都会好起来的。
这个问题最近变得更糟了。我们所有请求最大堆大小为 2048m 的作业几乎每次都会立即失败,并且需要重新启动几次才能完成。
我们已经使用了个别机器并尝试手动执行它们,结果相同。
调试
事实证明,这个问题只存在于我们的 SuSE 盒子中。它发生得更频繁的原因是因为我们一直在添加更多的机器,而新的机器是 SuSE。
SuSE 框中的“cat /proc/version”为我们提供:
Linux version 2.6.5-7.244-bigsmp (geeko@buildhost) (gcc version 3.3.3 (SuSE Linux)) #1 SMP Mon Dec 12 18:32:25 UTC 2005
RedHat 盒子上的“cat /proc/version”为我们提供:
Linux version 2.4.21-32.0.1.ELsmp (bhcompile@bugs.build.redhat.com) (gcc version 3.2.3 20030502 (Red Hat Linux 3.2.3-52)) #1 SMP Tue May 17 17:52:23 EDT 2005
'uname -a' 在两种类型的机器上都为我们提供了以下信息:
UTC 2005 i686 i686 i386 GNU/Linux
机器上没有运行任何作业,也没有其他进程占用太多内存。当前运行的所有进程可能总共使用 100mb。
“顶部”当前显示以下内容:
Mem: 4146528k total, 3536360k used, 610168k free, 132136k buffers
Swap: 4194288k total, 0k used, 4194288k free, 3283908k cached
“vmstat”当前显示以下内容:
procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----
r b swpd free buff cache si so bi bo in cs us sy id wa
0 0 0 610292 132136 3283908 0 0 0 2 26 15 0 0 100 0
如果我们使用以下命令行(Max Heap of 1850mb)启动一项工作,它可以正常启动:
java/bin/java -Xmx1850M -cp helloworld.jar HelloWorld
Hello World
如果我们将最大堆大小增加到 1875mb,它会失败:
java/bin/java -Xmx1875M -cp helloworld.jar HelloWorld
Error occurred during initialization of VM
Could not reserve enough space for object heap
Could not create the Java virtual machine.
很明显,当前使用的内存是用于缓冲/缓存的,这就是为什么很少显示为“空闲”的原因。不清楚的是为什么会有一个神奇的 1850mb 行,任何更高的值都意味着 Java 无法启动。
任何解释将不胜感激。