1

我打算使用 Lucene 来索引一个非常大的文本文档语料库。我知道倒排索引是如何工作的。

问题:Lucene 是否将实际的源文档存储在其索引中(除了术语)?因此,如果我搜索一个术语并想要包含该术语的所有文档,这些文档是来自 Lucene,还是 Lucene 只是返回指针(例如,匹配文档的文件路径)?

4

1 回答 1

2

这取决于你。Lucene 将文档表示为字段的集合,您可以为每个字段配置是否存储。通常,在处理较大的文档时,您将存储标题字段,而不是正文字段,并且您将添加可用于检索实际文档的标识符字段(未编入索引)。

于 2013-05-15T19:39:43.533 回答