1

我正在做这个项目,我希望从他最近的推文中对 Twitter 用户的一般情绪进行分类。既然推文可以属于各种各样的领域,我应该怎么做?

我可以使用朴素贝叶斯算法(例如:http: //phpir.com/bayesian-opinion-mining),但由于推文可以属于各种各样的域,我不确定这是否非常准确。

另一种选择可能是使用SentiWordNethere等情感词典。这会是更好的方法吗,我不知道。

如果我打算使用朴素贝叶斯或其他算法,我在哪里可以获得数据来训练我的分类器?

在这里补充一下,我主要使用 PHP 进行编码。

4

1 回答 1

2

如果您专注于逐字逐句的方法,您似乎可以将SentiWordNet其用作分类器数据。这就是简单的Bayesian spam filters工作原理;它专注于每个单词。

这里的好处是,虽然其中的许多单词SentiWordNet具有多种含义,每个单词都有不同的positive/objective/negative分数,但您可以尝试使用推文中其他单词的分数来缩小每个多义单词的最合适含义,这可以为每个单词和整个推文提供更准确的分数。

于 2012-07-02T20:48:58.193 回答