我正在尝试在我的空闲时间以谷歌为模型开发一个搜索引擎。
我正在使用此处列出的原始谷歌研究论文:http: //infolab.stanford.edu/~backrub/google.html
但是我在这里遇到了一些问题。确切地说,我在开发远期指数时遇到了问题。
在论文中它说:
如果文档包含落入特定桶中的单词,则将 docID 记录到桶中,然后是 wordID 列表以及与这些单词对应的命中列表。
现在这个声明有两个问题。首先,谁来决定哪些词从庞大的词典中进入 Forward Barrels?让他们都去。二是对应词的意思。它是指在前一个单词之后实际出现在该文档中的单词还是其他单词?
我对搜索引擎非常陌生,非常感谢任何信息检索专家在这方面帮助我。如果版主认为这个问题属于其他 Stack Exchange 站点,请这样做。