我一直在阅读很多文章,这些文章解释了在情感分析系统真正起作用之前需要一组初始文本,这些文本被归类为“正面”或“负面”。
我的问题是:有没有人试图对“积极”形容词和“消极”形容词进行初步检查,考虑到任何简单的否定词以避免将“不快乐”归类为积极?如果是这样,是否有任何文章讨论为什么这种策略不现实?
我一直在阅读很多文章,这些文章解释了在情感分析系统真正起作用之前需要一组初始文本,这些文本被归类为“正面”或“负面”。
我的问题是:有没有人试图对“积极”形容词和“消极”形容词进行初步检查,考虑到任何简单的否定词以避免将“不快乐”归类为积极?如果是这样,是否有任何文章讨论为什么这种策略不现实?
Peter Turney (2002) 的一篇经典论文解释了一种仅使用优秀和差这两个词作为种子集进行无监督情绪分析(正面/负面分类)的方法。Turney 使用其他词与这两个形容词的互信息来达到 74% 的准确率。
我没有尝试过像您所描述的那样进行未经训练的情绪分析,但是在我的脑海中,我会说您将问题过于简单化了。仅仅分析形容词并不足以很好地把握文本的情绪;例如,考虑“愚蠢”这个词。单独而言,您会将其归类为负面,但如果产品评论有“...... [x] 产品让他们的竞争对手看起来很愚蠢,因为没有首先考虑这个功能......”那么那里的情绪肯定是积极的. 单词出现的更大上下文在这样的事情中肯定很重要。这就是为什么单独使用未经训练的词袋方法(更不用说更有限的形容词袋)不足以充分解决这个问题。
预分类数据(“训练数据”)有助于将问题从尝试从头开始确定文本是正面情绪还是负面情绪转变为尝试确定文本是否更类似于正面文本或负面文本,并以这种方式分类。另一大点是,诸如情感分析之类的文本分析往往受到文本特征因领域而异的很大影响。这就是为什么拥有一组好的数据进行训练(即,来自您工作领域内的准确数据,并且希望能够代表您将必须分类的文本)与构建一个好的数据集同样重要系统进行分类。
不完全是一篇文章,但希望对您有所帮助。
larsmans 提到的 Turney (2002) 的论文是一个很好的基础。在一项较新的研究中,Li and He [2009]介绍了一种使用潜在狄利克雷分配(LDA) 的方法来训练一个模型,该模型可以以完全无监督的方式同时对文章的整体情绪和主题进行分类。他们达到的准确率为 84.6%。
我在评论中尝试了几种情感分析方法进行意见挖掘。对我来说最有效的是刘书中描述的方法:http ://www.cs.uic.edu/~liub/WebMiningBook.html在这本书中刘和其他人比较了许多策略并讨论了关于情绪分析和意见挖掘。
虽然我的主要目标是提取意见中的特征,但我实现了一个情感分类器来检测这些特征的正面和负面分类。
我使用 NLTK 进行预处理(词标记化、POS 标记)和三元组创建。然后我还使用了这个 takeit 中的贝叶斯分类器来与 Liu 指出的其他策略进行比较。
其中一种方法依赖于将每个表示此信息的 trigrram 标记为 pos/neg,并在此数据上使用一些分类器。我尝试过并且效果更好的其他方法(在我的数据集中大约 85% 的准确率)是计算句子中每个单词的 PMI(准时互信息)分数的总和,以及作为 pos/neg 类种子的单词excellent/poor .
大卫,
我不确定这是否有帮助,但您可能想查看 Jacob Perkin关于使用 NLTK 进行情绪分析的博客文章。
我尝试使用影响字典来发现关键字,以预测句子级别的情感标签。考虑到词汇的普遍性(不依赖于领域),结果只有大约 61%。该论文可在我的主页上找到。
在稍微改进的版本中,考虑了否定副词。整个系统名为 EmoLib,可用于演示:
http://dtminredis.housing.salle.url.edu:8080/EmoLib/
问候,
在情感分析中没有神奇的“捷径”,就像任何其他类型的文本分析试图发现一段文本的潜在“关于”一样。尝试通过简单的“形容词”检查或类似方法来使用经过验证的捷径文本分析方法会导致模棱两可、错误分类等,最终让您对情绪的阅读准确度很差。来源(例如 Twitter)越简洁,问题就越困难。