152

我试图了解接口 IEqualityComparer 的 GetHashCode 方法的作用。

以下示例取自 MSDN:

using System;
using System.Collections.Generic;
class Example {
    static void Main() {
        try {

            BoxEqualityComparer boxEqC = new BoxEqualityComparer();

            Dictionary<Box, String> boxes = new Dictionary<Box,
                                                string>(boxEqC);

            Box redBox = new Box(4, 3, 4);
            Box blueBox = new Box(4, 3, 4);

            boxes.Add(redBox, "red");
            boxes.Add(blueBox, "blue");

            Console.WriteLine(redBox.GetHashCode());
            Console.WriteLine(blueBox.GetHashCode());
        }
        catch (ArgumentException argEx) {

            Console.WriteLine(argEx.Message);
        }
    }
}

public class Box {
    public Box(int h, int l, int w) {
        this.Height = h;
        this.Length = l;
        this.Width = w;
    }
    public int Height { get; set; }
    public int Length { get; set; }
    public int Width { get; set; }
}

class BoxEqualityComparer : IEqualityComparer<Box> {

    public bool Equals(Box b1, Box b2) {
        if (b1.Height == b2.Height & b1.Length == b2.Length
                            & b1.Width == b2.Width) {
            return true;
        }
        else {
            return false;
        }
    }

    public int GetHashCode(Box bx) {
        int hCode = bx.Height ^ bx.Length ^ bx.Width;
        return hCode.GetHashCode();
    }
}

Equals 方法实现不应该足以比较两个 Box 对象吗?这就是我们告诉框架用于比较对象的规则的地方。为什么需要 GetHashCode?

谢谢。

卢西安

4

3 回答 3

214

先说一点背景...

.NET 中的每个对象都有一个 Equals 方法和一个 GetHashCode 方法。

Equals 方法用于将一个对象与另一个对象进行比较——查看这两个对象是否等价。

GetHashCode 方法生成对象的 32 位整数表示。由于对象可以包含多少信息没有限制,因此某些哈希码由多个对象共享 - 因此哈希码不一定是唯一的。

字典是一种非常酷的数据结构,它以更高的内存占用换取(或多或少)添加/删除/获取操作的恒定成本。但是,对于迭代来说,这是一个糟糕的选择。在内部,字典包含一个桶数组,其中可以存储值。将 Key 和 Value 添加到字典时,会在 Key 上调用 GetHashCode 方法。返回的哈希码用于确定存储 Key/Value 对的存储桶的索引。

当您想要访问 Value 时,您需要再次传入 Key。Key上调用GetHashCode方法,定位到包含Value的bucket。

将 IEqualityComparer 传递到字典的构造函数时,将使用 IEqualityComparer.Equals 和 IEqualityComparer.GetHashCode 方法,而不是 Key 对象上的方法。

现在要解释为什么这两种方法都是必要的,请考虑以下示例:

BoxEqualityComparer boxEqC = new BoxEqualityComparer(); 

Dictionary<Box, String> boxes = new Dictionary<Box, string>(boxEqC); 

Box redBox = new Box(100, 100, 25);
Box blueBox = new Box(1000, 1000, 25);

boxes.Add(redBox, "red"); 
boxes.Add(blueBox, "blue"); 

在您的示例中使用 BoxEqualityComparer.GetHashCode 方法,这两个框具有相同的哈希码 - 100^100^25 = 1000^1000^25 = 25 - 即使它们显然不是同一个对象。在这种情况下,它们是相同的哈希码的原因是因为您使用的是 ^(按位异或)运算符,因此 100^100 抵消了留下零,1000^1000 也是如此。当两个不同的对象具有相同的键时,我们称之为碰撞。

当我们将两个具有相同哈希码的键/值对添加到字典中时,它们都存储在同一个桶中。因此,当我们要检索一个 Value 时,会在 Key 上调用 GetHashCode 方法来定位存储桶。由于存储桶中有多个值,因此字典会遍历存储桶中的所有键/值对,调用键上的 Equals 方法以找到正确的值。

在您发布的示例中,两个框是等效的,因此 Equals 方法返回 true。在这种情况下,字典有两个相同的键,所以它会抛出异常。

TLDR

所以综上所述,GetHashCode 方法用于生成存储对象的地址。所以字典不必搜索它。它只是计算哈希码并跳转到该位置。Equals 方法是更好的相等性测试,但不能用于将对象映射到地址空间。

于 2010-11-04T12:46:41.117 回答
9

GetHashCode用于 Dictionary 集合中,它创建散列以在其中存储对象。这是一篇很好的文章为什么以及如何使用IEqualtyComparerGetHashCode http://dotnetperls.com/iequalitycomparer

于 2010-11-04T09:47:12.283 回答
5

虽然 aDictionary<TKey,TValue>可以让其GetValue和类似的方法调用Equals每个存储的密钥以查看它是否与正在寻找的密钥匹配,但这会非常慢。相反,像许多基于散列的集合一样,它依赖于GetHashCode快速排除大多数不匹配的值。如果调用GetHashCode一个正在搜索的项目产生 42,并且一个集合有 53,917 个项目,但调用GetHashCode53,914 个项目产生的值不是 42,那么只需将 3 个项目与正在搜索的项目进行比较。可以安全地忽略其他 53,914 个。

GetHashCode将 a包含在 an中的原因IEqualityComparer<T>是允许字典的使用者可能希望将其视为平等对象,而这些对象通常不会将彼此视为平等。最常见的示例是希望使用字符串作为键但使用不区分大小写的比较的调用者。为了有效地工作,字典需要有某种形式的散列函数,它将为“Fox”和“FOX”产生相同的值,但希望为“box”或“zebra”产生其他值。由于GetHashCode内置的​​方法String不能那样工作,字典需要从其他地方获取这样的方法,IEqualityComparer<T>Equals认为“Fox”和“FOX”彼此相同,但不是“box”或“zebra”的方法。

于 2015-03-18T17:49:00.453 回答