我打算使用 Lucene 来索引一个非常大的文本文档语料库。我知道倒排索引是如何工作的。
问题:Lucene 是否将实际的源文档存储在其索引中(除了术语)?因此,如果我搜索一个术语并想要包含该术语的所有文档,这些文档是来自 Lucene,还是 Lucene 只是返回指针(例如,匹配文档的文件路径)?
我打算使用 Lucene 来索引一个非常大的文本文档语料库。我知道倒排索引是如何工作的。
问题:Lucene 是否将实际的源文档存储在其索引中(除了术语)?因此,如果我搜索一个术语并想要包含该术语的所有文档,这些文档是来自 Lucene,还是 Lucene 只是返回指针(例如,匹配文档的文件路径)?