我目前正在使用MinHashing
技术进行文档聚类。但是,我没有得到想要的结果,因为 MinHash 是一个粗略的估计,Jaccard similarity
它不符合我的要求。
这是我的场景:
我有一大堆书,如果给出一个单页作为查询,我需要找到从中获取该页的相应书。限制是,我有整本书的功能,不可能逐页获得这些书的功能。在这种情况下,如果书太大,Jaccard 相似性会给出很差的结果。我真正想要的是查询页面和书籍之间的距离(反之亦然)。那是:
给定2组A,B:我想要从A到B的距离,
dis(A->B) = (A & B)/A
是否有类似的距离度量可以给出从集合 A 到集合 B 的距离。此外,是否仍然可以使用MinHashing
具有这种相似性度量的算法?