我没有自然语言处理方面的正式背景,我想知道 NLP 方面的人是否可以对此有所了解。我正在玩弄NLTK库,我专门研究了这个包提供的停用词功能:
在 [80] 中:nltk.corpus.stopwords.words('english')
出[80]:
['我','我','我的','我自己','我们','我们的','我们的','我们自己','你','你的','你的','你自己',' “你自己”、“他”、“他”、“他的”、“他自己”、“她”、“她”、“她的”、“她自己”、“它”、“它”、“它自己”、“他们” ,“他们”,“他们的”,“他们的”,“他们自己”,“什么”,“哪个”,“谁”,“谁”,“这个”,“那个”,“这些”,“那些”,“ am'、'is'、'are'、'was'、'were'、'be'、'been'、'being'、'have'、'has'、'had'、'有','做','做','做','做','a','an','the','and','but','if','or','because' , 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', '通过','期间','之前','之后','上面','下面','to','from','up','down','in','out','on' , 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', '为什么','如何','全部','任何','两者','每个','少数','更多','大多数','其他','一些','这样','没有' , 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', '将','只是','不要','应该','现在']'s'、't'、'can'、'will'、'just'、'don'、'should'、'now']'s'、't'、'can'、'will'、'just'、'don'、'should'、'now']
我不明白的是,为什么会出现“不”这个词?这不是确定句子中的情绪所必需的吗?例如,这样的句子:
我不确定问题是什么。
一旦not
删除停用词,将句子的含义更改为相反的 ( I am sure what the problem is
),则完全不同。如果是这种情况,是否有一套我在何时不使用这些停用词时遗漏的规则?