0

Jaccard 相似度用于估计两个集合之间的相似度。但是,如果我们想找到最相似的文档对,则需要 O(n^2)。如果使用 minhashing,它可以做得更快(http://infolab.stanford.edu/~ullman/mmds/ch3n.pdfhttps://www.fatalerrors.org/a/text-similarity-calculation-minhash -and-lsh-algorithm.html)。我想知道如何实现 minhashing 来估计两组之间的相似性,比如说s1={1, 2, 3}s2={1, 2, 4}(从头开始)

4

0 回答 0