3

有没有办法使用NLTK显示给定文本中的填充词?如果没有,有人知道我在哪里可以得到一个带有英文填充词的单词表吗?谢谢你

已解决:从 nltk.corpus 导入停用词

4

1 回答 1

3

NLTK 本身并没有提供这样的列表,尽管在 Web 的其他地方可以找到许多列表。

存在相当多的来源:网络搜索带有“亵渎” 、 “badwords.txt”blacklists.txt的词表会产生很多来源。

在我们公司的案例中,我们最终创建了自己的列表并根据需要添加到其中。根据您的受众,列表必须进行调整和调整。

最后,即使这个SO 问题已关闭(以及关于 php),我发现参考资料和讨论非常有用。

更新:您想要的是STOP WORDS列表。

  1. 试试:http ://www.ranks.nl/resources/stopwords.html
  2. 麻省理工学院还维护着一个停用词列表。

希望有帮助。

于 2012-12-09T04:28:08.257 回答