java - Java 哈希冲突概率

Question

我将大量对象（具有存储在对象的字节数组中的唯一值组合）存储在哈希映射（约 280 万个对象）中，并且在检查我是否有任何哈希码冲突（32 位哈希)，我很惊讶地发现没有，而在统计上，我有几乎 100% 的机会发生至少一次碰撞（参见http://preshing.com/20110504/hash-collision-probabilities/）。

因此，我想知道我检测碰撞的方法是否有问题，或者我是否非常幸运......

以下是我尝试从存储在地图中的 280 万个值中检测碰撞的方法：

HashMap<ShowdownFreqKeysVO, Double> values;
(...fill with 2.8 mlns unique values...)
HashSet<Integer> hashes = new HashSet<>();
for (ShowdownFreqKeysVO key:values.keySet()){
    if (hashes.contains(key.hashCode())) throw new RuntimeException("Duplicate hash for:"+key);
    hashes.add(key.hashCode());
}

这是对象创建哈希值的方法：

public class ShowdownFreqKeysVO {
    //Values for the different parameters
    public byte[] values = new byte[12];

    @Override
    public int hashCode() {
        final int prime = 31;
        int result = 1;
        result = prime * result + Arrays.hashCode(values);
        return result;
    }

    @Override
    public boolean equals(Object obj) {
        if (this == obj)
            return true;
        if (obj == null)
            return false;
        if (getClass() != obj.getClass())
            return false;
        ShowdownFreqKeysVO other = (ShowdownFreqKeysVO) obj;
        if (!Arrays.equals(values, other.values))
            return false;
        return true;
    }
}

任何关于我做错了什么的想法/提示将不胜感激！

谢谢，托马斯

score 5 · Accepted Answer

我不相信运气

这是Arrays.hashCode您使用的实现

public static int hashCode(int a[]) {
    if (a == null)
        return 0;

    int result = 1;
    for (int element : a)
        result = 31 * result + element;

    return result;
}

如果您的值恰好小于 31，它们将被视为以 31 为基数的不同数字，因此每个结果都会产生不同的数字（如果我们暂时忽略溢出）。让我们称这些纯哈希

现在当然31^11比 Java 中的整数数量要大得多，所以我们会得到大量的溢出。但是由于 31 的幂和最大整数是“非常不同的”，你不会得到一个几乎随机的分布，而是一个非常规则的均匀分布。

让我们考虑一个较小的例子。我假设您的数组中只有 2 个元素，每个元素的范围从 0 到 5。我尝试通过取“纯哈希”的模 38 来创建 0 到 37 之间的“hashCode”结果是我得到了 5 个整数的条纹，它们之间有小间隙，而不是一次碰撞。

val hashes = for {
  i <- 0 to 4
  j <- 0 to 4
} yield (i * 31 + j) % 38

println(hashes.size) // prints 25
println(hashes.toSet.size) // prints 25

要验证这是否是您的数字所发生的情况，您可以创建如下图：对于每个散列，将前 16 位用于 x，将后 16 位用于 y，将点涂成黑色。我打赌你会看到一个非常规则的模式。

score 0 · Accepted Answer

我认为您的代码没有任何问题，但是您链接到的分析假设 hashCodes 是均匀分布的，并且不同对象的 hashCodes 是独立的随机变量。

后者可能不正确：您知道对象是唯一的（因此不是独立的）。或许 hashCode 函数保留了特定品牌的独特性。

java - Java 哈希冲突概率

2 回答 2

Related

Reference