lucene - Lucene：如何获得查询和文本之间的相似度

翻译自：https://stackoverflow.com/questions/15593743 2013-03-24T00:33:31.387

329 次

我对一个文本有很多查询。示例“北美”、“欧洲”、“亚洲”（查询）和一个文本（例如关于美国的大文本（例如 Wikipedia 文章））。

现在我建立一个大文本的索引，然后我发送上面提到的查询。现在 Lucene（版本 4）计算一个分数。但正如我通过不同的搜索所知道的那样，这不是真正的百分比，也不是查询和文本之间的真正相似性。使用 TFIDFSimilarity 我只能得到非常小的分数（<0.05）

但我希望得到以下相似之处：“北美”==> 90% “欧洲”、“亚洲”==> 40%

..或其他东西，但它应该是一个真正的相似之处。

我能做些什么？有人有什么想法吗？

0 回答 0