7

我尝试了朴素贝叶斯分类器,它的工作非常糟糕。SVM 工作得更好一些,但仍然很糟糕。我读过的大多数关于 SVM 和朴素贝叶斯的论文都有一些变化(n-gram、POS 等),但它们都给出了接近 50% 的结果(文章的作者谈论 80% 和高,但我不能得到同样准确真实数据)。

除了词法分析,还有更强大的方法吗?SVM 和贝叶斯假设单词是独立的。这些方法称为“词袋”。如果我们假设这些词是相关联的呢?

例如:使用先验算法检测如果句子包含“bad and wrong”,那么该句子有 70% 的概率是否定的。我们也可以使用单词之间的距离等等。

这是个好主意还是我正在发明自行车?

4

4 回答 4

6

您在这里混淆了几个概念。朴素贝叶斯和 SVM 都与词袋方法无关。SVM 和 BOW 方法都没有术语之间的独立性假设。

以下是您可以尝试的一些事情:

  • 在你的词袋中包含标点符号;尤其是 !和 ?可能有助于情感分析,而许多面向文档分类的特征提取器将它们丢弃
  • 停用词也一样:像“我”和“我的”这样的词可能表示主观文本
  • 建立一个两阶段分类器;先判断有没有表达意见,再判断是正面还是负面
  • 尝试使用二次核 SVM 而不是线性 SVM 来捕获特征之间的交互。
于 2012-06-11T14:07:14.377 回答
5

SVM、朴素贝叶斯和最大熵等算法是有监督的机器学习算法,程序的输出取决于您提供的训练集。对于大规模的情感分析,我更喜欢使用无监督学习方法,其中可以通过将文档聚类到相同方向的部分来确定形容词的情感,并将聚类标记为正面或负面。更多信息可以从这篇论文中找到。 http://icwsm.org/papers/3--Godbole-Srinivasaiah-Skiena.pdf

希望这对您的工作有所帮助:)

于 2012-11-24T06:07:03.107 回答
2

你可以找到一些关于使用 python 进行情感分析的有用材料。本演示文稿将情绪分析总结为 3 个简单的步骤

  • 标记数据
  • 预处理 &
  • 模型学习
于 2015-06-04T17:38:28.850 回答
0

情绪分析是一个正在进行的研究领域。现在有很多研究正在进行。对于最新、最成功的方法的概述,我通常建议您查看 SemEval 的共享任务。通常,他们每年都会在 Twitter 上举办情绪分析比赛。您可以在此处找到描述该任务的论文以及 2016 年的结果(尽管可能有点技术性):http ://alt.qcri.org/semeval2016/task4/data/uploads/semeval2016_task4_report.pdf

从那里开始,您可以查看描述各个系统的论文(如那里所引用的)。

于 2016-09-05T08:15:31.147 回答