3

he, she, it在执行 NLP 或 IR/IE 相关任务时,是否有人们通常用来删除标点符号和关闭类词(例如)的停用词列表?

我一直在尝试使用 gibbs 抽样来进行词义消歧的主题建模,并且它不断给标点符号和近类词提供高概率,只是因为它们经常出现在语料库中。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

4

1 回答 1

6

你试过谷歌搜索吗?我得到的热门文章要么包含停用词列表,要么是链接到所述列表的堆栈溢出帖子:

于 2013-02-18T11:28:58.037 回答