java - Java 中的可序列化、可克隆和内存使用

Question

我正在使用一个内部类，它是 HashMap 的子类。我有一个String作为键和double[]值。我每个存储大约 200 个双打double[]。我应该使用大约 700 MB 来存储键、指针和双精度。但是，内存分析表明我需要的远不止这些（略超过 2 GB）。

使用TIJmp（分析工具）我看到有一个char[]几乎使用了总内存的一半。TIJmp 说char[]来自Serializableand Cloneable。其中的值范围从字体列表和默认路径到消息和单个字符。

SerializableJVM中的确切行为是什么？因此，它是否始终保持“持久”副本，从而使我的内存占用量增加一倍？如何在运行时编写对象的二进制副本而不将 JVM 变成内存占用者？

PS：内存消耗增加最多的方法是下面的一种。该文件有大约 229,000 行，每行 202 个字段。

public void readThetas(String filename) throws Exception
{
    long t1 = System.currentTimeMillis();
    documents = new HashMapX<String,double[]>(); //Document names to indices.
    Scanner s = new Scanner(new File(filename));
    int docIndex = 0;
    if (s.hasNextLine())
        System.out.println(s.nextLine()); // Consume useless first line :)
    while(s.hasNextLine())
    {
        String[] fields = s.nextLine().split("\\s+");
        String docName = fields[1];
        numTopics = fields.length/2-1;
        double[] thetas = new double[numTopics];
        for (int i=2;i<numTopics;i=i+2)
            thetas[Integer.valueOf(fields[i].trim())] = Double.valueOf(fields[i+1].trim());
        documents.put(docName,thetas);
        docIndex++;
        if (docIndex%10000==0)
            System.out.print("*"); //progress bar ;)
    }
    s.close();
    long t2 = System.currentTimeMillis();
    System.out.println("\nRead file in "+ (t2-t1) +" ms");
}

哦！，HashMapX 是一个内部类，声明如下：

public static class HashMapX< K, V> extends HashMap<K,V> {
    public V get(Object key, V altVal) {
        if (this.containsKey(key))
            return this.get(key);
        else
            return altVal;
    }
}

score 5 · Accepted Answer

这可能无法解决您的所有问题，但序列化可以显着增加内存使用量：http: //java.sun.com/javase/technologies/core/basic/serializationFAQ.jsp#OutOfMemoryError。

简而言之，如果您保持打开状态，则除非您显式调用其方法ObjectOutputStream，否则不会对已写入其中的对象进行垃圾收集。reset()

score 4 · Accepted Answer

所以，我找到了答案。这是我的代码中的内存泄漏。与 Serializable 或 Cloneable 无关。

此代码正在尝试解析文件。每行包含一组我试图提取的值。然后，我保留其中一些值并将它们存储在 HashMapX 或其他结构中。

问题的核心在这里：

        String[] fields = s.nextLine().split("\\s+");
        String docName = fields[1];

我在这里传播它：

        documents.put(docName,thetas);

发生的事情是 docName 是对数组（字段）中元素的引用，我在程序的整个生命周期中都保留了该引用（通过将其存储在全局 HashMap 文档中）。只要我保持该引用有效，就不能对整个 String[] 字段进行垃圾收集。解决方案：

        String docName = new String(fields[1]); // A copy, not a reference.

从而复制对象并释放对数组元素的引用。这样，垃圾收集器可以在我处理完每个字段后释放数组使用的内存。

我希望这对所有使用 split 解析大型文本文件并将某些字段存储在全局变量中的人有用。

感谢大家的评论。他们引导我朝着正确的方向前进。

java - Java 中的可序列化、可克隆和内存使用

2 回答 2

Related

Reference