2

我在情感分析或自然语言处理方面没有太多背景,但我在业余时间读了一些关于它的内容。我想进行并尝试分析论坛主题/评论,如 reddit、digg、博客等。我特别有兴趣做一些事情,比如计算激烈的宗教和政治主题的支持、反对和中立评论的数量辩论。这就是我的想法。

1) 找到原发帖人定义了敏感的政治或宗教话题的主题。

2) 对于每条评论,将其归类为支持原始海报或采取相反或中立的立场。

3) 将各种媒体与支持或反对论点的数量进行比较,以确定哪些平台是好的“辩论平台”(即平衡的论点计数)。

我预计的一个大问题是,激烈的话题会引起支持方和反对方的强烈反应,因此简单的快乐/悲伤情绪分析不会解决问题。我只是出于自己的好奇心对这个项目感兴趣,所以如果有人知道类似的研究或实用程序来进行这个实验,我很想听听更多。

有人可以为此任务推荐一个好的情感分析、词典、训练集等吗?

4

2 回答 2

2

恕我直言,如果不涉及语义,这是不可能的。考虑以下句子:

与许多其他人不同,我不反对废除死刑。

您的 AI 可能需要识别惯用的子框架,例如“不反对”或其他“不……”片段。这并非不可能;-)

另一个问题是,“not”或多或少是一个停用词,它的排名可能在前 100 位,导致熵低(尽管它对每个未使用的句子都有很高的“语义”值)。另请注意,省略“废除”,也会导致句子的“极性”翻转。

于 2012-02-19T16:50:10.823 回答
2

您可以尝试使用词袋[甚至更好:使用n-gram作为词袋的标记]

该方法基本上是:

  1. 对一组示例进行分类,让您的算法从分类的示例中提取相关词。
  2. 当给出新评论时,提取相关词,并使用 k 近邻来判断新评论是否支持/反对/中立。

此外,您可能想看看Apache Mahout

于 2012-02-19T15:28:13.580 回答