Lucene 索引是否使用 tf-idf 作为权重?是否可以为每个文档定义自己的统计信息和权重,并将它们“插入”到 Lucene 中?
问问题
845 次
2 回答
1
是的,默认评分算法包含 tf-idf,并且在TFIDFSiilarity 文档中有完整记录。
有多种方法可以自定义文档的评分。
- 最简单和最常见的方法是在索引时在字段上或在查询时在查询词上合并提升。
- 许多查询类型会修改用于该查询的评分。示例包括ConstantScoreQuery和DisjunctionMaxQuery。
- 您使用的
Similarity
定义评分算法。您可以选择不同的(例如BM25Similarity)。 - 您可以实现自己的
Similarity
,通常通过扩展更高级别的实现,例如DefaultSimilarity
、TFIDFSimilarity
或SimilarityBase
于 2013-07-10T07:25:21.913 回答
0
只需通过这个例子。它可以帮助您了解如何在索引过程中带来自定义更改
http://lucene.apache.org/core/4_3_1/demo/src-html/org/apache/lucene/demo/IndexFiles.html
于 2013-07-10T06:46:11.510 回答