sql-server - 哈希不匹配

Question

我正在散列相同的值，但得到不同的结果。

这是一个简化的示例来解释我遇到的情况：

我有一个看起来像这样的维度表：

性别	性别ID
男性	1
女性	0

性别的数据类型是 NVARCHAR(6)，gender_id 是 INT

当我执行以下任何查询时，我得到相同的哈希：

**Scenario 1:**
SELECT 
       CONVERT(BINARY(20), HASHBYTES('Md5', Concat(Gender, cast(gender_id as int))))
FROM demographic
WHERE gender = 'Male';

输出：'0x6B216D8BB993AA263265CCF645C282B100000000'

**Scenario 2:**
    SELECT  
           CONVERT(BINARY(20), HASHBYTES('Md5', Concat(Gender, CAST(gender_id AS NVARCHAR(1)))))
    FROM demographic
    WHERE gender = 'Male';

输出：'0x6B216D8BB993AA263265CCF645C282B100000000'

在场景 1 中，我将 gender_id 转换为 INT，在场景 2 中，我将 gender_id 转换为 NVARCHAR。在这两种情况下，哈希都是相同的。

当我对维度中的特定值而不是列执行查询时，我的哈希值是不同的：

 **Scenario 3:**
    SELECT CONVERT(BINARY(20), HASHBYTES('MD5', Concat('Male', CAST(1 as INT))));

输出：'0x048A5F0EE2D2B4070CFF8A38CB6DAC7100000000'

**Scenario 4:**
    SELECT CONVERT(BINARY(20), HASHBYTES('MD5', Concat('Male', CAST(1 as NVARCHAR(1)))));

输出：'0x6B216D8BB993AA263265CCF645C282B100000000'

在场景 3 中，我将 1 转换为 INT，就像我在场景 1 中所做的那样。在场景 4 中，我将 1 转换为 NVARCHAR，就像我在场景 2 中所做的那样。但是，场景 3 和 4 具有不同的哈希值。除此之外，场景 4 的哈希值与场景 1 和 2 中的哈希值一致。

我无法理解为什么场景 1、2 和 4 的哈希值相同，但场景 3 的哈希值不同。在我的维度中，gender_id 是一个 INT。当我查询我的维度时，无论我如何转换它，哈希总是相同的。在场景 3 和 4 中，当我用实际值替换列名时，结果会发生变化。除非我将其转换为 NVARCHAR，否则场景 3 中的哈希将不匹配场景 1 和 2。为什么会这样，因为gender_id 自然是一个INT？

将不胜感激您的任何见解，并很乐意在需要时提供更多说明。

谢谢！

score 7 · Accepted Answer

'Male'是 ANSIvarchar值，而不是 Unicode nvarchar。对于 Unicode，您需要N'Male'

例如，对于这个查询，我得到以下结果：

select convert(varchar(20), cast('Male' as varbinary(20)), 1)

0x4D616C65

而这个，请注意N在文字之前添加：

select convert(varchar(20), cast(N'Male' as varbinary(20)), 1)

0x4D0061006C006500

sql-server - 哈希不匹配

1 回答 1

Related

Reference