indexing - 谷歌中的前向索引实现

Question

我正在尝试在我的空闲时间以谷歌为模型开发一个搜索引擎。

我正在使用此处列出的原始谷歌研究论文：http: //infolab.stanford.edu/~backrub/google.html

但是我在这里遇到了一些问题。确切地说，我在开发远期指数时遇到了问题。

在论文中它说：

如果文档包含落入特定桶中的单词，则将 docID 记录到桶中，然后是 wordID 列表以及与这些单词对应的命中列表。

现在这个声明有两个问题。首先，谁来决定哪些词从庞大的词典中进入 Forward Barrels？让他们都去。二是对应词的意思。它是指在前一个单词之后实际出现在该文档中的单词还是其他单词？

我对搜索引擎非常陌生，非常感谢任何信息检索专家在这方面帮助我。如果版主认为这个问题属于其他 Stack Exchange 站点，请这样做。

score 0 · Accepted Answer

第一个问题：将每个单词的字符串值映射为一个整数（通过哈希函数）。这是因为整数比字符串更容易处理。然后，您可以在这些整数值上定义范围（桶或箱或您可能想要调用的任何其他内容），例如

第二个问题：通常不使用上下文信息。单词只是文档中存在的术语，例如术语“the”、“quick”、“brown”等。

既然你说你是 IR 的新手，一个好的开始方法是阅读 IR 的介绍性书籍，例如 Manning 和 Schutze 的书。

1 回答 1