0

我正在研究倒排索引,我的问题是:在最后一步中,我们应该返回单词出现的文档总数还是每个文档编号?例如:如果单词“Hello”出现在 3 个文档(文档 A、文档 B 和文档 C)中,我应该返回 3 还是 A、B、C?

4

2 回答 2

2

索引意味着它可以让您查找某些内容,而不仅仅是一个数字。频率计数将为您提供单词出现次数的计数。

顺便说一句,您可以从 A、B、C 获得号码,但反之则不行。

于 2014-05-07T17:20:47.460 回答
0

这完全取决于你!

如果您只需要返回某个单词出现的文档总数,那么您甚至不需要倒排索引。您所需要的只是从单词到计数的映射。与倒排索引相比,这将花费更少的计算和空间。

如果您正在进行信息检索练习(或做一些概念证明等),在我看来,您还需要返回找到给定单词的文档,这就是布尔检索

于 2017-09-07T18:09:05.560 回答