在为搜索引擎分析文档时,通常不索引所谓的停用词。停用词是语言中经常出现的常用词,例如a
、the
和。this
这个想法是,如果停用词被编入索引,它们会在索引中占用太多空间,并且对搜索结果的质量几乎没有影响。
我想知道是否总是这样。
在现代搜索引擎中,索引停用词是否会使索引大小爆炸?还是只是微幅增长。
此外,删除停用词如何影响短语搜索?搜索“披头士”和“披头士”似乎是两件截然不同的事情。
我正在使用 elasticsearch 构建应用程序,但这个问题同样适用于 Solr、直接 lucene 或任何其他变体。