node.js - 使用 Apache MurmurHash3.java x86 32 位方法具有负值

Question

我必须使用 x86 32 位 murmurhash 来确定我在 Kafka 中发送消息的分区。另一个应用程序正在使用 NodeJS murmurhash.v3() 方法从预期的分区中获取消息。

我尝试了两种方法：

首先，我从https://svn.apache.org/repos/asf/mahout/trunk/math/src/main/java/org/apache/mahout/math/MurmurHash3.java获得了 Java 类
我还尝试用Java翻译NodeJS murmurhash.v3()的JS代码（下表中的N到A列）

这是我用来从 Apache java 方法获取值的代码：

int ret = MurmurHash3.MurmurHashV3(key, new Long(KAFKA_PARTITION_SEED).intValue());

注意：目前，KAFKA_PARTITION_SEED = 100 但它只是一个测试值。未来将是 Long 值。

这是我完成的代码，从 NodeJS转换为 Java：

    static int MurmurHashV3(String key, int seed) {
    int remainder;
    int bytes;
    int h1;
    int h1b;
    int c1;
    int c2;
    int k1;
    int i;

    remainder = key.length() & 3; // key.length % 4
    bytes = key.length() - remainder;
    h1 = seed;
    c1 = 0xcc9e2d51;
    c2 = 0x1b873593;
    i = 0;

    while (i < bytes) {
        k1 = ((key.charAt(i) & 0xff)) | ((key.charAt(++i) & 0xff) << 8)
                | ((key.charAt(++i) & 0xff) << 16)
                | ((key.charAt(++i) & 0xff) << 24);
        ++i;

        k1 = ((((k1 & 0xffff) * c1) + ((((k1 >>> 16) * c1) & 0xffff) << 16))) & 0xffffffff;
        k1 = (k1 << 15) | (k1 >>> 17);
        k1 = ((((k1 & 0xffff) * c2) + ((((k1 >>> 16) * c2) & 0xffff) << 16))) & 0xffffffff;

        h1 ^= k1;
        h1 = (h1 << 13) | (h1 >>> 19);
        h1b = ((((h1 & 0xffff) * 5) + ((((h1 >>> 16) * 5) & 0xffff) << 16))) & 0xffffffff;
        h1 = (((h1b & 0xffff) + 0x6b64) + ((((h1b >>> 16) + 0xe654) & 0xffff) << 16));
    }

    k1 = 0;

    switch (remainder) {
    case 3:
        k1 ^= (key.charAt(i + 2) & 0xff) << 16;
    case 2:
        k1 ^= (key.charAt(i + 1) & 0xff) << 8;
    case 1:
        k1 ^= (key.charAt(i) & 0xff);

        k1 = (((k1 & 0xffff) * c1) + ((((k1 >>> 16) * c1) & 0xffff) << 16)) & 0xffffffff;
        k1 = (k1 << 15) | (k1 >>> 17);
        k1 = (((k1 & 0xffff) * c2) + ((((k1 >>> 16) * c2) & 0xffff) << 16)) & 0xffffffff;
        h1 ^= k1;
    }

    h1 ^= key.length();

    h1 ^= h1 >>> 16;
    h1 = (((h1 & 0xffff) * 0x85ebca6b) + ((((h1 >>> 16) * 0x85ebca6b) & 0xffff) << 16)) & 0xffffffff;
    h1 ^= h1 >>> 13;
    h1 = ((((h1 & 0xffff) * 0xc2b2ae35) + ((((h1 >>> 16) * 0xc2b2ae35) & 0xffff) << 16))) & 0xffffffff;
    h1 ^= h1 >>> 16;

    return h1 >>> 0;
}

在这两种情况下，我在尝试获取分区值时都会得到相同的结果。分区值（下表中的P）是murmurhash方法返回值的模8（%8）。

这是我得到的结果示例：

关键 | 节点JS | 磷 | 阿帕奇 | 磷 | N 到 A | 磷 | 相同的

0009B5192951 | 1285784451 | 3 | 1285784451 | 3 | 1285784451 | 3 | 真的

0009B5192953 | 2252321193 | 1 | -2042646103 | -7 | -2042646103 | -7 | 错误的

0009B5192979 | 973658619 | 3 | 973658619 | 3 | 973658619 | 3 | 真的

0009B5192985 | 1359432313 | 1 | 1359432313 | 1 | 1359432313 | 1 | 真的

0009B5192987 | 3551230334 | 6 | -743736962 | -2 | -743736962 | -2 | 错误的

0009B5192995 | 199863683 | 3 | 199863683 | 3 | 199863683 | 3 | 真的

0009B5193001 | 1660947343 | 7 | 1660947343 | 7 | 1660947343 | 7 | 真的

0009B5193007 | 1980598253 | 5 | 1980598253 | 5 | 1980598253 | 5 | 真的

0009B5203789 | 1358113422 | 6 | 1358113422 | 6 | 1358113422 | 6 | 真的

0009B5203791 | 1339226023 | 7 | 1339226023 | 7 | 1339226023 | 7 | 真的

如您所见，在某些情况下，Apache murmurhash 方法返回一个负值，这不是预期的（我猜）。

谁能告诉我我做错了什么？

score 0 · Accepted Answer

一段时间以来，我在使用 MurmurHash2 时遇到了同样的问题，但事实证明，由于 Java 处理签名的方式，Apache 实现存在错误。我建议改用这个。

score 0 · Accepted Answer

Kafka Streams 正在使用来自 github repo 的 murmur hash 3，我们看到了这个实现，你可能想要使用这个

https://github.com/apache/kafka/blob/99b9b3e84f4e98c3f07714e1de6a139a004cbc5b/streams/src/main/java/org/apache/kafka/streams/state/internals/Murmur3.java

/**

这个类取自 Hive org.apache.hive.common.util；
https://github.com/apache/hive/blob/master/storage-api/src/java/org/apache/hive/common/util/Murmur3.java
提交：dffa3a16588bc8e95b9d0ab5af295a74e06ef702
Murmur3 是 Murmur2 快速非加密哈希算法的继承者。
Murmur3 32 位和 128 位变体。
https://code.google.com/p/smhasher/source/browse/trunk/MurmurHash3.cpp#94的 32 位 Java 端口
https://code.google.com/p/smhasher/source/browse/trunk/MurmurHash3.cpp#255的 128 位 Java 端口
这是一个没有版权的公共领域代码。
从 MurmurHash 的主页（https://code.google.com/p/smhasher/），
“所有 MurmurHash 版本均为公有领域软件，作者放弃所有版权
到他们的代码。” */

score 0 · Accepted Answer

杂音哈希

我写了一个简单的工具来只产生正的 murmurhash3 32 位哈希。

在有限的测试数据中进行了测试，结果与lastguest\Murmur相同。

也许它符合您的要求，或者您可以随意破解它。

node.js - 使用 Apache MurmurHash3.java x86 32 位方法具有负值

3 回答 3

Related

Reference