hash - 相似哈希函数（simhash）

Question

我在使用哈希函数时遇到问题。我必须为文档中的每个单词分配一些数字（128 位或 64 位）。因此，“相似度”的哈希值必须与“相似度”相近。这意味着，如果相似度的值=>10022（比如说），那么相似度=>10025。这应该与相似的词接近。不同名称的哈希值也应该相似。这意味着，“john”的哈希值也应该接近“michel”或“sita”......等等。如果任何人对此有任何想法。

先谢谢了。:)

score 3 · Accepted Answer

它不是以这种方式工作的，首先您必须找到可用数据样本值的通用模型，然后将其用于流式日志消息。

score 0 · Accepted Answer

有一个叫做 OpenNLP 的库，所以通过使用这个库你可以知道它是什么类型的词。然后正如您所说，对于类似名称的相似词，可以在其中写入名称或动词的哈希函数，因此可以得到相似的哈希值。谢谢。

hash - 相似哈希函数（simhash）

2 回答 2

Related

Reference