我热衷于尝试实施 minhashing 以查找接近重复的内容。http://blog.cluster-text.com/tag/minhash/有一篇很好的文章,但问题是您需要在文档中的带状疱疹上运行多少散列算法才能获得合理的结果。
上面的博客文章提到了 200 种散列算法。http://blogs.msdn.com/b/spt/archive/2008/06/10/set-similarity-and-min-hash.aspx将 100 列为默认值。
显然随着哈希数量的增加,准确度也会增加,但是多少哈希函数才是合理的呢?
引用博客
由于统计采样值上的误差条缩放的方式,我们的相似性估计的误差条很难比 [7%] 小得多——要将误差条减半,我们需要四倍的样本。
这是否意味着将哈希数减少到 12 (200 / 4 / 4) 会导致 28% (7 * 2 * 2) 的错误率?