3

我正在尝试在我的空闲时间以谷歌为模型开发一个搜索引擎。

我正在使用此处列出的原始谷歌研究论文:http: //infolab.stanford.edu/~backrub/google.html

但是我在这里遇到了一些问题。确切地说,我在开发远期指数时遇到了问题。

在论文中它说:

如果文档包含落入特定桶中的单词,则将 docID 记录到桶中,然后是 wordID 列表以及与这些单词对应的命中列表。

现在这个声明有两个问题。首先,谁来决定哪些词从庞大的词典中进入 Forward Barrels?让他们都去。二是对应词的意思。它是指在前一个单词之后实际出现在该文档中的单词还是其他单词?

我对搜索引擎非常陌生,非常感谢任何信息检索专家在这方面帮助我。如果版主认为这个问题属于其他 Stack Exchange 站点,请这样做。

4

1 回答 1

0

第一个问题:将每个单词的字符串值映射为一个整数(通过哈希函数)。这是因为整数比字符串更容易处理。然后,您可以在这些整数值上定义范围(桶或箱或您可能想要调用的任何其他内容),例如

  • 术语 ID 0 到 1000 => Bin-1
  • 术语 ids 1001 到 2000 => Bin-2 等等。

第二个问题:通常不使用上下文信息。单词只是文档中存在的术语,例如术语“the”、“quick”、“brown”等。

既然你说你是 IR 的新手,一个好的开始方法是阅读 IR 的介绍性书籍,例如 Manning 和 Schutze 的书。

于 2014-06-18T23:21:24.763 回答