python - 使用 simhash 检测附近重复的文档

Question

我在github中找到了这个 python 项目，但是当我尝试使用它来检测近乎重复的文档（例如 json）时，我没有从README.md文件中获得足够的信息来说明如何做到这一点？它只显示计算

import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)

以及如何使用

import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)

到目前为止我尝试过的内容：克隆此 repo 后，我已经安装了所有要求，但是当我尝试运行时，setup.py或者bench.py它正在显示

ImportError：没有名为 simhash.simhash 的模块

这个项目很棒，但我遇到了这个困难，因为README.md文件对如何创建文档哈希的描述性不是很好？，如何传递哈希？以及如何检测附近的重复项？. 因此，我需要有关如何对文档进行哈希处理的帮助？任何人都可以帮助我了解如何使用 python 使用这个simhash来实现近乎重复的文档检测，或者提供任何分步教程链接来实现这个？顺便说一句，我已经看到了，但这并不包含实现它的完整步骤。

score 0 · Accepted Answer

尝试这个

pip install git+https://github.com/seomoz/simhash-py.git

此外，更多描述 dlecocq 已在问题中发布。下面是那个链接

https://github.com/seomoz/simhash-py/issues/47

python - 使用 simhash 检测附近重复的文档

1 回答 1

Related

Reference