13

我需要您的帮助来确定分析“正面”与“负面”行业特定句子(即电影评论)的最佳方法。我以前见过诸如 OpenNLP 之类的库,但它太低级了——它只是给了我基本的句子组成;我需要的是一个更高级别的结构: - 希望有单词列表 - 希望可以在我的数据集上训练

谢谢!

4

2 回答 2

23

您要查找的内容通常称为情绪分析。通常,情绪分析无法处理微妙的微妙之处,例如讽刺或讽刺,但如果您向其投入大量数据,它的表现会非常好。

情感分析通常需要相当多的预处理。至少标记化、句子边界检测和词性标注。有时,句法解析可能很重要。正确地做到这一点是计算语言学研究的一个完整分支,除非你花时间先研究这个领域,否则我不会建议你提出自己的解决方案。

OpenNLP 有一些工具可以帮助进行情绪分析,但是如果你想要更严肃的东西,你应该研究一下LingPipe工具包。它有一些内置的 SA 功能和一个不错的教程。您可以根据自己的数据集对其进行训练,但不要认为这完全是微不足道的 :-)。

谷歌搜索该术语可能还会为您提供一些资源来使用。如果您有任何更具体的问题,请问,我正在密切关注 nlp-tag ;-)

于 2008-09-24T10:22:13.177 回答
6

一些情感分析方法使用在其他文本分类任务中流行的策略。最常见的是将您的电影评论转换为词向量,并将其作为训练数据输入分类算法。最流行的数据挖掘包可以在这里为您提供帮助。您可以查看本关于情绪分类的教程,该教程说明了如何使用开源RapidMiner 工具包进行实验。

顺便说一句,有一个很好的数据集可用于与检测电影评论意见相关的研究目的。它基于 IMDB 用户评论,您可以查看该领域的许多相关研究工作以及他们如何使用数据集。

值得记住的是,这些方法的有效性只能从统计的角度来判断,所以你几乎可以假设会有错误分类和意见难以察觉的情况。正如在这个线程中已经注意到的那样,检测讽刺和讽刺之类的东西确实非常困难。

于 2009-01-24T21:38:26.483 回答