1

我在使用哈希函数时遇到问题。我必须为文档中的每个单词分配一些数字(128 位或 64 位)。因此,“相似度”的哈希值必须与“相似度”相近。这意味着,如果相似度的值=>10022(比如说),那么相似度=>10025。这应该与相似的词接近。不同名称的哈希值也应该相似。这意味着,“john”的哈希值也应该接近“michel”或“sita”......等等。如果任何人对此有任何想法。

先谢谢了。:)

4

2 回答 2

3

它不是以这种方式工作的,首先您必须找到可用数据样本值的通用模型,然后将其用于流式日志消息。

于 2012-05-18T12:08:55.733 回答
0

有一个叫做 OpenNLP 的库,所以通过使用这个库你可以知道它是什么类型的词。然后正如您所说,对于类似名称的相似词,可以在其中写入名称或动词的哈希函数,因此可以得到相似的哈希值。谢谢。

于 2012-05-17T18:36:38.610 回答