我正在阅读 MinHash 技术来估计 2 个集合之间的相似性:给定集合 A 和 B,h 是散列函数,hmin(S) 是集合 S 的最小散列,即 hmin(S)=min(h(s )) 对于 S 中的 s。我们有以下等式:
p(hmin(A)=hmin(B))=|A∩B| / |A∪B|
这意味着A的最小哈希等于B的最小哈希的概率是A和B的Jaccard相似度。
我试图证明上述等式并提出我自己的证明:对于 a∈A 和 b∈B 使得 h(a)=hmin(A) 和 h(b)=hmin(B)。因此,如果 hmin(A)=hmin(B),则 h(a)=h(b)。假设散列函数 h 可以将键散列到不同的散列值,所以 h(a)=h(b) 当且仅当 a=b,其概率为 |A∩B| / |A∪B|。但是,我的证明并不完整,因为哈希函数可以为不同的键返回相同的值。所以,我请求你帮助找到一个可以应用的证明,不管散列函数。