2

我正在使用 java 从文件中读取数据,将数据复制到较小的数组并将这些数组放入哈希表中。我注意到 Hashmap 比原始文件消耗更多的内存(大约两倍)!知道为什么吗?

这是我的代码:

public static void main(final String[] args) throws IOException {
    final PrintWriter writer = new PrintWriter(new FileWriter("test.txt",
            true));
    for(int i = 0; i < 1000000; i++)
        writer.println("This is just a dummy text!");
    writer.close();

    final BufferedReader reader = new BufferedReader(new FileReader(
            "test.txt"));
    final HashMap<Integer, String> testMap = new HashMap<Integer, String>();
    String line = reader.readLine();
    int k = 0;
    while(line != null) {
        testMap.put(k, line);
        k++;
        line = reader.readLine();
    }
}
4

3 回答 3

7

这不是问题HashMap,它通常是 Java 对象的问题。每个对象都有一定的内存开销,包括数组和HashMap.

但更重要的是:字符数据占用内存空间的两倍。原因是Java 对每个字符使用 16 位,而文件可能以 ASCII 或 UTF-8 编码,每个字符仅使用 7 或 8 位。

更新:对此您无能为力。您发布的代码原则上很好。它只是不适用于大文件。如果您HashMap仔细调整,您可能会做得更好,或者您可以使用字节数组而不是字符串来存储您的字符(假设所有内容都是 ASCII 或单字节 UTF-8)。

但最终,要解决内存不足的问题,正确的方法是重新考虑程序,这样您就不必一次将整个文件读入内存。

无论您对该文件的内容做什么,请考虑是否可以在从磁盘读取文件时执行此操作(这称为流式传输),或者提取相关部分并仅存储它们。您也可以尝试随机访问该文件。

我建议你稍微阅读一下这些东西,尝试一些东西,然后回来问一个新的问题,具体到你的应用程序。因为这条线太长了。

于 2012-11-01T16:30:23.957 回答
6

地图是一种“可扩展”结构——当它达到其容量时,它会调整大小。因此,您的地图使用的 40% 的空间可能实际上是空的。如果您知道地图中有多少条目,则可以使用临时构造函数以最佳方式调整地图大小:

Map<xx,yy> map = new HashMap<> (length, 1);

即使您这样做,地图仍将使用比所包含项目的实际大小更多的空间。

更详细地说:HashMap 的大小在达到(容量 * loadFactor)时翻倍。HashMap 的默认加载因子是 0.75。

例子:

  • 想象一下您的地图的容量(大小)为 10,000 个条目
  • 然后,您在地图中放置了 7,501 个条目。容量 * loadFactor = 10,000 * 0.75 = 7,500
  • 因此,您的 hashmap 已达到其调整大小阈值并调整为 (容量 * 2) = 20,000,尽管您只持有 7,501 个条目。这会浪费很多空间。

编辑

这个简单的代码让您了解实际发生的情况 - 输出是:

threshold of empty map = 8192
size of empty map = 35792
threshold of filled map = 8192
size of filled map = 1181712
threshold with one more entry = 16384
size with one more entry = 66640

这表明如果您添加的最后一项恰好强制地图调整大小,它可以人为地增加地图的大小。诚然,这并不能说明您观察到的整体效果。

public static void main(String[] args) throws java.lang.Exception {
    Field f = HashMap.class.getDeclaredField("threshold");
    f.setAccessible(true);

    long mem = Runtime.getRuntime().freeMemory();
    Map<String, String> map = new HashMap<>(2 << 12, 1); // 8,192
    System.out.println("threshold of empty map = " + f.get(map));
    System.out.println("size of empty map = " + (mem - Runtime.getRuntime().freeMemory()));

    mem = Runtime.getRuntime().freeMemory();
    for (int i = 0; i < 8192; i++) {
        map.put(String.valueOf(i), String.valueOf(i));
    }
    System.out.println("threshold of filled map = " + f.get(map));
    System.out.println("size of filled map = " + (mem - Runtime.getRuntime().freeMemory()));

    mem = Runtime.getRuntime().freeMemory();
    map.put("a", "a");
    System.out.println("threshold with one more entry = " + f.get(map));
    System.out.println("size with one more entry = " + (mem - Runtime.getRuntime().freeMemory()));
}
于 2012-11-01T16:31:16.253 回答
0

HashMap(和数组)的实现内部有很多东西需要存储。数组长度就是这样一个例子。不确定这是否会导致double,但它肯定会占一些。

于 2012-11-01T16:28:37.670 回答