我目前正在创建一个程序,可以在文本文档(+5000 文档)的语料库中计算接近重复的分数。我正在使用 Simhash 生成文档的 uniq 足迹(感谢这个github repo)
我的数据是:
data = {
1: u'Im testing simhash algorithm.',
2: u'test of simhash algorithm',
3: u'This is simhash test.',
}
这给了我3个这样的哈希:
00100110101110100011111000100010010101011001000001110000111001011100110101001101111010100010001011001011000110000100110101101
00001001110010000000011000001000110010001010000101010000001100000100100011100100110010100000010000000110001001010110000010001
10001110101100000100101010000010010001011010001000000000101000101100001100100000110011000000011001000000000110000000100110000
现在,如何比较这 3 个哈希值?我知道我必须将它们分成块但没有确切的方法?
我想要做的是输出所有重复文档(> 70%)及其ID和重复文档的ID。
有人可以帮忙吗?