我正在研究倒排索引,我的问题是:在最后一步中,我们应该返回单词出现的文档总数还是每个文档编号?例如:如果单词“Hello”出现在 3 个文档(文档 A、文档 B 和文档 C)中,我应该返回 3 还是 A、B、C?
问问题
209 次
索引意味着它可以让您查找某些内容,而不仅仅是一个数字。频率计数将为您提供单词出现次数的计数。
顺便说一句,您可以从 A、B、C 获得号码,但反之则不行。
这完全取决于你!
如果您只需要返回某个单词出现的文档总数,那么您甚至不需要倒排索引。您所需要的只是从单词到计数的映射。与倒排索引相比,这将花费更少的计算和空间。
如果您正在进行信息检索练习(或做一些概念证明等),在我看来,您还需要返回找到给定单词的文档,这就是布尔检索