java - 覆盖与 Lucene 的相似性并改用 LSA+SVD

翻译自：https://stackoverflow.com/questions/38230891 2016-07-06T18:09:48.217

267 次

我正在研究一个Lucene用于搜索和返回匹配项的现有项目。它不使用任何自定义分析器或任何外部算法。文档很小，行数不超过 50 个单词，因此我知道LSA AND SVD短文本比语料库文档效果更好（通常 tf-idf 可以很好地处理每个文档中的长文本），我想将LSA And SVD其作为相似度度量搜索匹配的非精确词。我的问题是：

我需要custom analyzer吗？我搜索了它，但我发现自定义分析器主要用于分析文档，而不是真正应用相似度度量。
或者我是否需要像此链接https://lucene.apache.org/core/3_5_0/api/core/org/apache/lucene/search/package-summary.html#changeSimilarity一样更改相似性？

如果是，任何使用 LSA 作为自定义相似度的示例？我对 java 和 lucene 很陌生，我不知道如何开始，任何帮助将不胜感激

我的文档数以百万计，但每个文档都很少。

java - 覆盖与 Lucene 的相似性并改用 LSA+SVD

0 回答 0

Related

Reference