美好的一天,我正在尝试用python(使用朴素贝叶斯分类器)编写一个情感分析应用程序,目的是将新闻中的短语分类为正面或负面。我在为此找到合适的语料库时遇到了一些麻烦。我尝试使用“General Inquirer”(http://www.wjh.harvard.edu/~inquirer/homecat.htm),它工作正常,但我有一个大问题。由于它是一个单词列表,而不是一个短语列表,我在尝试标记以下句子时观察到以下问题:
预计他不会获胜。
这句话被归类为积极的,这是错误的。原因是“win”是肯定的,但“not”没有任何意义,因为“not win”是一个短语。任何人都可以针对该问题提出语料库或解决方法吗?非常感谢您的帮助和洞察力。