java - Hashmap loadfactor - 基于占用的桶数或所有桶中的条目数？

Question

我试图了解在超过占用的存储桶数或所有存储桶中的条目总数时是否会发生哈希映射的重新散列。意味着，我们知道如果 16 个桶中的 12 个（每个桶中有一个条目）已满（考虑默认负载因子和初始容量），那么我们知道在下一个条目上哈希图将被重新散列。但是，如果假设只有 3 个存储桶被每个 4 个条目占用（总共 12 个条目，但 16 个存储桶中只有 3 个在使用中），那这种情况呢？

所以我试图通过制作最差的哈希函数来复制这一点，它将所有条目放在一个桶中。

这是我的代码。

class X {

    public Integer value;

    public X(Integer value) {
        super();
        this.value = value;
    }

    @Override
    public int hashCode() {
        return 1;
    }

    @Override
    public boolean equals(Object obj) {
        X a = (X) obj;
        if(this.value.equals(a.value)) {
            return true;
        }
        return false;
    }

}

现在我开始将值放入哈希图中。

HashMap<X, Integer> map = new HashMap<>();
    map.put(new X(1), 1);
    map.put(new X(2), 2);
    map.put(new X(3), 3);
    map.put(new X(4), 4);
    map.put(new X(5), 5);
    map.put(new X(6), 6);
    map.put(new X(7), 7);
    map.put(new X(8), 8);
    map.put(new X(9), 9);
    map.put(new X(10), 10);
    map.put(new X(11), 11);
    map.put(new X(12), 12);
    map.put(new X(13), 13);
    System.out.println(map.size());

所有节点都按预期进入了单个存储桶，但我注意到在第 9 个条目时，哈希图重新哈希并使其容量增加了一倍。现在在第 10 次入境时，它的容量再次翻了一番。

谁能解释这是怎么回事？

提前致谢。

score 2 · Accepted Answer

在 HashMap 中，如果条目的哈希码相同，则条目将存在于同一个桶中。如果将唯一的 Integer 对象放在 hashMap 中，它们的 hashcode 肯定会改变，因为它们是不同的对象。

但是在您的情况下，所有对象都具有相同的哈希码。这意味着您指定的所有条目都将位于一个存储桶中。这些桶中的每一个都遵循特定的数据结构（linkedList/tree）。这里的容量根据特定的数据结构和哈希图而变化。

我已经运行了评论中提到的JB Nizet 的代码（ https://gist.github.com/jnizet/34ca08ba0314c8e857ea9a161c175f13/revisions ），循环限制为 64 和 128（添加 64 和 128 个元素）：

添加 64 个元素时：在 HashMap 中添加第 49 个元素时容量增加了一倍（128）（因为负载因子为 0.75）
添加 128 个元素时：容量增加了一倍（256），同时将第 97 个元素添加到 HashMap（也因为负载因子为 0.75）。

将容量增加到64后，HashMap工作正常。

综上所述，bucket 使用链表到一定长度（8 个元素）。之后它使用树数据结构（容量有波动的地方）。原因是访问树结构 (O(log(n))) 比链表 (O(n)) 更快。

这张图片显示了一个 JAVA 8 HashMap 的内部数组，其中包含两个树（位于桶 0）和链表（位于桶 1,2 和 3）。Bucket 0 是一棵树，因为它有超过 8 个节点（readmore）。

在这方面，关于Hashmap的文档和关于bucket in hashmap 的讨论会有所帮助。

score 2 · Accepted Answer

回应评论而不是问题本身，因为您的评论与您实际想知道的内容更相关。

最好和最相关的答案where this rehashing on bucket size is explained further是源代码本身。您在9-th条目中观察到的内容是预期的，并且发生在这部分代码中：

for (int binCount = 0; ; ++binCount) {
    // some irrelevant lines skipped
    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
        treeifyBin(tab, hash);
        break;
    }

其中TREEIFY_THRESHOLD = 8和binCount是箱的数量。

该treeifyBin方法名称有点误导，因为它可能会重新调整大小，而不是 treefiy 一个 bin，这是该方法代码的相关部分：

if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
        resize();

请注意，它实际上会resize（读取它的大小的两倍）并且Tree直到MIN_TREEIFY_CAPACITY达到（64）。

score 1 · Accepted Answer

阅读hashmap的源码，

/**
 * The smallest table capacity for which bins may be treeified.
 * (Otherwise the table is resized if too many nodes in a bin.)
 * Should be at least 4 * TREEIFY_THRESHOLD to avoid conflicts
 * between resizing and treeification thresholds.
 */
static final int MIN_TREEIFY_CAPACITY = 64;

你会看到

如果容量没有达到 MIN_TREEIFY_CAPACITY(64)，并且单个桶上的节点达到 TREEIFY_THRESHOLD，现在 map 将调整大小。
如果容量超过 MIN_TREEIFY_CAPACITY(64)，并且单个桶上的节点达到 TREEIFY_THRESHOLD，现在 map 将树化桶上的节点（源代码中的 bin）。

Resize和treeify是两个可以带来map reorganize的操作，上面根据不同场景做出的决策也是一种权衡。

java - Hashmap loadfactor - 基于占用的桶数或所有桶中的条目数？

3 回答 3

Related

Reference