0

我对一个文本有很多查询。示例“北美”、“欧洲”、“亚洲”(查询)和一个文本(例如关于美国的大文本(例如 Wikipedia 文章))。

现在我建立一个大文本的索引,然后我发送上面提到的查询。现在 Lucene(版本 4)计算一个分数。但正如我通过不同的搜索所知道的那样,这不是真正的百分比,也不是查询和文本之间的真正相似性。使用 TFIDFSimilarity 我只能得到非常小的分数(<0.05)

但我希望得到以下相似之处:“北美”==> 90% “欧洲”、“亚洲”==> 40%

..或其他东西,但它应该是一个真正的相似之处。

我能做些什么?有人有什么想法吗?

4

0 回答 0