2

我正在研究一个Lucene用于搜索和返回匹配项的现有项目。它不使用任何自定义分析器或任何外部算法。文档很小,行数不超过 50 个单词,因此我知道LSA AND SVD短文本比语料库文档效果更好(通常 tf-idf 可以很好地处理每个文档中的长文本),我想将LSA And SVD其作为相似度度量搜索匹配的非精确词。我的问题是:

  1. 我需要custom analyzer吗?我搜索了它,但我发现自定义分析器主要用于分析文档,而不是真正应用相似度度量。

  2. 或者我是否需要像此链接https://lucene.apache.org/core/3_5_0/api/core/org/apache/lucene/search/package-summary.html#changeSimilarity一样更改相似性?

如果是,任何使用 LSA 作为自定义相似度的示例?我对 java 和 lucene 很陌生,我不知道如何开始,任何帮助将不胜感激

我的文档数以百万计,但每个文档都很少。

4

0 回答 0