我有以下两个文本:
text0 = "AAAAAAAAAAAA";
text1 = "AAAAAAAAAAAAA";
我使用 4 瓦。因此,text0 = {AAAA},text1 = {AAAA,AAAB,AABA,ABAA,BAAA}。
那么,Jaccard 相似度为 sim = 1/5 = 0.2。
我不想要这个结果。因为这两个文本似乎具有很高的相似性。
我想使用袋相似度如下:
text0 = {AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA},
text1 = {AAAA,AAAA,AAAA,AABA,ABAA,BAAA,AAAA,AAAA,AAAA}。
如果使用这两个袋子,它的相似之处是 sim = 5/9。这远高于 0.2。
MinHash可以做到这一点吗?