我有一个相对简单的 Lucene 索引,由 Solr 提供服务。该索引包含两个主要字段,标题和正文,以及一些不太重要的字段。
大多数搜索引擎在标题中与正文中的匹配项提供更多相关性。我将开始为标题字段提供索引时间提升。
我的问题是,人们通常将什么值用于他们的标题字段?2?4?10?100?
我建议您将中间体长除以中间标题长度。这大致为您提供了一个因子 M - 对于正文中出现 M 次单词,它将在标题中出现一次。现在,使用 M*3 之类的东西。当然,这是一种合理化的启发式方法,最好对这些值进行迭代。请参阅Grant Ingersoll 的“Debugging Relevance Issues in Search”以获得更结构化的讨论。