Lucene 索引的内存表示(相对于文件格式)是什么样的?整个反向索引是否加载到内存中,例如作为发布列表数组(其中每个发布列表包含文档 ID、文档中的术语频率和位置)?就像是
class Posting {
private int docID;
private int termFreq;
private int[] termPositions;
}
class PostingList {
private Posting[] postings;
}
public class SomeClassThatHoldsTheIndexInMemory {
private PostingList[] index; // Indexed by some internal term ID?
}
我知道构成索引的所有内容(包括有关术语的辅助信息)可能不会保存在内存中,但肯定有什么?
哪些类定义了索引的内存表示?如果索引看起来像上面那样,Lucene 如何从一个术语(一个字符串)变成一个术语 ID(一个 int)?