performance - Shingleprinting在实践中如何工作？

Question

我正在尝试使用 shingleprinting 来测量文档相似性。该过程包括以下步骤：

第 3 步涉及生成一个非常长的序列的随机排列。使用 Knuth-shuffle 似乎是不可能的。有什么捷径吗？请注意，最后我们只需要结果排列的单个元素。

score 3 · Accepted Answer

警告：我对此不是 100% 肯定，但我已经阅读了一些论文，我相信这就是它的工作原理。例如，在 Piotr Indyk 的“一个小的近似最小独立散列函数族”中，他写道“在与 Altavista 集成的实现中，集合 H 被选为成对独立的散列函数族。”

在第 3 步中，您实际上不需要对 [n] （从 1 到 n 的整数）进行随机排列。事实证明，成对独立的散列函数在实践中有效。所以你要做的是选择一个成对独立的散列函数 h。然后将 h 应用于每个 shingle 哈希。您可以在步骤 4 中取这些值的最小值。

标准的成对独立散列函数是 h(x) = ax + b (mod p)，其中 a 和 b 是随机选择的，p 是素数。

参考资料：http ://www.cs.princeton.edu/courses/archive/fall08/cos521/hash.pdf和http://people.csail.mit.edu/indyk/minwise99.ps

1 回答 1