4

在为搜索引擎分析文档时,通常不索引所谓的停用词。停用词是语言中经常出现的常用词,例如athe和。this这个想法是,如果停用词被编入索引,它们会在索引中占用太多空间,并且对搜索结果的质量几乎没有影响。

我想知道是否总是这样。

在现代搜索引擎中,索引停用词是否会使索引大小爆炸?还是只是微幅增长。

此外,删除停用词如何影响短语搜索?搜索“披头士”和“披头士”似乎是两件截然不同的事情。

我正在使用 elasticsearch 构建应用程序,但这个问题同样适用于 Solr、直接 lucene 或任何其他变体。

4

2 回答 2

4
  1. 停用词的主要问题不是索引大小,而是答案的质量。它们往往占主导地位(具有非常高的tf值,因此可能使返回的结果错误),而不是索引的大小。
    在任何情况下,索引停用词都不会显着增加索引的大小(而且它肯定不会“爆炸”)

  2. 克服它的一种方法是在索引n-grams时使用停用词(而不是完全省略它们) 。我不知道它是否真的完成了,但它绝对可以帮助改善返回的结果。

另外:停用词并不总是* 省略。例如,在讽刺检测器中 - 似乎(根据经验)停用词对答案非常重要。

于 2012-11-28T08:08:49.170 回答
0

我认为所有搜索引擎都以不同的方式处理这个问题。您可以在以下网址阅读这些内容:http ://searchenginewatch.com

但是,如果您只是一个正在构建(小)应用程序的人,我认为您不应该关注这些小细节,而忽略这些词并专注于更相关的词。

于 2012-11-28T08:11:09.450 回答