5

美好的一天,我正在尝试用python(使用朴素贝叶斯分类器)编写一个情感分析应用程序,目的是将新闻中的短语分类为正面或负面。我在为此找到合适的语料库时遇到了一些麻烦。我尝试使用“General Inquirer”(http://www.wjh.harvard.edu/~inquirer/homecat.htm),它工作正常,但我有一个大问题。由于它是一个单词列表,而不是一个短语列表,我在尝试标记以下句子时观察到以下问题:

预计他不会获胜。

这句话被归类为积极的,这是错误的。原因是“win”是肯定的,但“not”没有任何意义,因为“not win”是一个短语。任何人都可以针对该问题提出语料库或解决方法吗?非常感谢您的帮助和洞察力。

4

2 回答 2

4

参见例如:Councill、McDonald 和 Velikovich 的“什么是好什么不是:学习对否定范围进行分类以改进情绪分析”

http://dl.acm.org/citation.cfm?id=1858959.1858969

和跟进,

http://scholar.google.com/scholar?cites=3029019835762139237&as_sdt=5,33&sciodt=0,33&hl=en

例如 Morante 等人 2011

http://eprints.pascal-network.org/archive/00007634/

于 2012-05-29T10:44:35.953 回答
3

在这种情况下,该作品没有修改短语expecteed to win的意思,将其颠倒过来。要识别这一点,您需要对句子进行 POS 标记并将否定副词应用于(认为)动词短语作为否定。但是,我不知道是否有一个语料库会告诉您不是这种类型的修饰符。

于 2012-05-28T20:24:58.170 回答