12

我没有自然语言处理方面的正式背景,我想知道 NLP 方面的人是否可以对此有所了解。我正在玩弄NLTK库,我专门研究了这个包提供的停用词功能:

在 [80] 中:nltk.corpus.stopwords.words('english')

出[80]:

['我','我','我的','我自己','我们','我们的','我们的','我们自己','你','你的','你的','你自己',' “你自己”、“他”、“他”、“他的”、“他自己”、“她”、“她”、“她的”、“她自己”、“它”、“它”、“它自己”、“他们” ,“他们”,“他们的”,“他们的”,“他们自己”,“什么”,“哪个”,“谁”,“谁”,“这个”,“那个”,“这些”,“那些”,“ am'、'is'、'are'、'was'、'were'、'be'、'been'、'being'、'have'、'has'、'had'、'有','做','做','做','做','a','an','the','and','but','if','or','because' , 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', '通过','期间','之前','之后','上面','下面','to','from','up','down','in','out','on' , 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', '为什么','如何','全部','任何','两者','每个','少数','更多','大多数','其他','一些','这样','没有' , 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', '将','只是','不要','应该','现在']'s'、't'、'can'、'will'、'just'、'don'、'should'、'now']'s'、't'、'can'、'will'、'just'、'don'、'should'、'now']

我不明白的是,为什么会出现“不”这个词?这不是确定句子中的情绪所必需的吗?例如,这样的句子:

我不确定问题是什么。

一旦not删除停用词,将句子的含义更改为相反的 ( I am sure what the problem is),则完全不同。如果是这种情况,是否有一套我在何时不使用这些停用词时遗漏的规则?

4

1 回答 1

18

停用词列表的概念没有普遍意义,取决于你想做什么。如果您有一项任务需要了解短语的极性、情感或类似特征,并且您的方法依赖于检测否定(如您的示例中),那么显然您不应该将“not”作为停用词删除(请注意,您可能仍希望删除其他非常常见的不相关词,这些词将构成您的新停用词列表)。

但是,要回答您的问题,大多数情感分析方法都非常肤浅。他们寻找充满情感/情感的词,而且——大多数时候——他们不尝试对句子进行深入分析。

作为另一个您希望保留停用词的示例:如果您尝试根据作者(作者归属)或进行文体测量对文档进行分类,您绝对应该保留这些功能词,因为它们是风格和话语。

然而,对于许多其他类型的分析(例如词空间模型、文档相似性、搜索等),删除非常常见的功能词在计算上(处理更少的词)和在某些情况下(甚至可能得到更好的结果)都是有意义的删除停用词)。如果我想了解经常使用特定词的上下文,我希望查看实词,而不是功能词。

于 2011-06-26T04:11:26.607 回答