0

当针对 Lucene 进行搜索查询时,访问哪些文件(如http://lucene.apache.org/core/old_versioned_docs/versions/3_5_0/fileformats.html中所述)以及访问顺序是什么?例如,一旦查询被标记为术语列表,使用什么文件将这些术语转换为命中列表(文档 ID)?一旦我们有了文档 ID,我们如何查找相关文档?

4

1 回答 1

1

典型的搜索需要来自以下文件的信息:

  1. 术语字典以获取有关查询中术语的信息
  2. 获取与查询匹配的文档 ID 的频率
    • 已删除的文档文件用于跳过已删除的文档
    • 规范文件用于对文档进行评分
    • 如果查询需要处理位置(例如短语查询),那么也会读取位置文件
  3. 存储字段以获取热门点击的摘要结果
  4. 术语向量以突出显示存储的字段内容
于 2013-03-12T08:40:47.320 回答