3

我有两个不同的程序希望分别在 Python 和 Java 中使用 Murmur3 对相同的字符串进行哈希处理。

Python 2.7.9 版:

mmh3.hash128('abc')

给出 79267961763742113019008347020647561319L。

Java是番石榴18.0:

HashCode hashCode = Hashing.murmur3_128().newHasher().putString("abc", StandardCharsets.UTF_8).hash();

给出字符串“6778ad3f3f3f96b4522dca264174a23b”,转换为 BigInterger 给出 137537073056680613988840834069010096699。

如何从两者中获得相同的结果?

谢谢

4

2 回答 2

7

以下是如何从两者中获得相同的结果:

byte[] mm3_le = Hashing.murmur3_128().hashString("abc", UTF_8).asBytes();
byte[] mm3_be = Bytes.toArray(Lists.reverse(Bytes.asList(mm3_le)));
assertEquals("79267961763742113019008347020647561319",
    new BigInteger(mm3_be).toString());

哈希码的字节需要被视为小端,但BigInteger将字节解释为大端。您大概是new BigInteger(hex, 16)用来创建 的BigInteger,但 的输出HashCode.toString()实际上是一系列十六进制数字对,表示哈希字节的顺序与asBytes()(little endian) 返回的顺序相同。(您还可以反转这些十六进制对以获得一个十六进制数,当传递给时会产生相同的结果new BigInteger(reversedHex, 16))。

我认为文档toString()有点令人困惑,因为它引用“大端”的方式;它实际上并不意味着该方法的输出是表示解释为大端的字节的十六进制数。

我们有一个未解决的问题要添加asBigInteger()HashCode.

于 2015-04-29T16:46:45.823 回答
2

如果有人对反向答案感兴趣,请将 python 输出转换为 Java 输出:

import mmh3
import string

char_array = '0123456789abcdef'
mumrmur = mmh3.hash_bytes('abc')

result = [f'{string.hexdigits[(char >> 4) & 0xf]}{string.hexdigits[char & 0xf]}' for char in mumrmur]
print(''.join(result))
于 2018-04-15T08:55:29.287 回答