1

问题是:我有一组文本文档,我想选择与输入文件最相似的一个。输入的文本文档可以完全匹配或部分修改。该算法必须非常快。

目前,我发现 simhash 从收集文件中获取指纹。有没有其他算法可以做同样的事情?

4

2 回答 2

2

LSH(局部敏感散列)技术是通用的索引方法。它们在寻找近似最近邻居方面非常有效。

SimHash 是 LSH 的一种散列算法。它在实值数据上使用余弦相似度。

MinHash 是 LSH 的另一种散列算法。它计算二元向量的相似度。

海量数据集的挖掘,Anand Rajaraman 和 Jeff Ullman 第 3 章。很好地介绍了问题空间,尤其是 MinHash。

于 2014-12-30T00:41:23.717 回答
1

你试过 LSH(局部敏感哈希)技术吗

于 2011-08-06T06:13:34.030 回答