0

我正在制作一个简单的搜索引擎,当我浏览要编入索引的文档时,我想自动识别应该忽略的单词(例如“and”和“the”)。

我能想到的唯一简单的方法就是忽略不超过一定长度的单词(如果它们不够长,那么它们被认为是停用词)。任何其他方法都可能需要数据挖掘(我愿意接受建议)。

我更喜欢在浏览文档时可以使用的方法,但我对其他建议持开放态度。我只需要一个简单的方法。

4

1 回答 1

1

简短的回答是:不要。不要打扰,而是从查询中删除它们和/或通过 TF-IDF 适当地权衡它们。

引用 Xapian 手册:http: //xapian.org/docs/stemming.html

建立 IR 系统的传统做法是在索引期间丢弃一种语言中最常见的词 - 停用词。一种更现代的方法是索引所有内容,这极大地有助于搜索例如短语。停用词仍然可以作为一种可选的检索方式从查询中删除。在任何一种情况下,一种语言的停用词列表都是有用的。

可以通过按频率对一种语言的文本语料库的词汇表进行排序,然后在列表中选择要丢弃的单词来获取停用词列表。

于 2013-10-21T10:56:38.893 回答