我收集了大约 1500 个文档。我解析了每个文档并提取了标记。这些标记存储在哈希图中(作为键),它们在集合中出现的总次数(即频率)存储为值。
我必须扩展它来建立一个倒排索引。也就是说,术语(键)| 它出现的文档数-->DocNo|该文档中的频率。例如,
Term DocFreq DocNum TermFreq
data 3 1 12
23 31
100 17
customer 2 22 43
19 2
目前,我在 Java 中有以下内容,
hashmap<string,integer>
for(each document)
{
extract line
for(each line)
{
extract word
for(each word)
{
perform some operations
get value for word from hashmap and increment by one
}
}
}
我必须建立在这段代码上。我真的想不出实现倒排索引的好方法。到目前为止,我想将 value 设为 2D 数组。所以术语将是键,值(即二维数组)将存储 docId 和 termFreq。
请让我知道我的逻辑是否正确。