3

我正在尝试创建一个情绪分析工具来分析三天内关于曼联足球俱乐部的推文,并确定人们对它们的看法是正面还是负面。我目前正在使用本指南作为指导(Java 是我的编码语言)

http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html

我正在使用 Apache Flume 将我的推文下载到 Apache Hadoop 中,然后打算使用 Apache Hive 来查询推文。我也可以使用 Apache Oozie 来有效地划分推文。

在我上面发布的链接中,提到我需要一个训练数据集来训练我将创建的分类器来分析推文。提供的示例分类器有大约 5000 条推文。当我为 uni 的暑期项目做这个时,我觉得我应该创建自己的数据集。

为了使这个分类器有效,我应该使用的最少推文数量是多少?有推荐的号码吗?例如,如果我手动分析一百条推文,或者五百条,或者一千条,它会有效吗?

4

2 回答 2

1

没有一个确切的数字来训练分类器。您可以拥有一个大型数据集,其中所有数据都具有相同的属性,因此您的分类器将记住一个模式,或者您可以拥有一个没有那么大的数据集和好的实例,因此您的分类器将获得更好的结果。

您可以使用他们在帖子中为您提供的示例数据集训练分类器,并使用交叉验证以获得最佳分类器。

获得最佳分类器后,您可以将您的分类器与帖子中提供的分类器进行比较,然后选择更好的分类器。

于 2013-07-24T20:38:06.657 回答
0

数据集都是不同的,它们的内容经常(不可预测地)随着时间而变化。有时你会发现 100 条带注释的推文就足以达到非常好的性能,因为语言使用是统一的。有时,数以万计的推文是不够的。就在你认为你的分类器很好的时候,两天过去了,人们谈论什么以及谈论它的方式发生了变化。同样的分类器现在没用了。在不断变化的数据流中,有大量关于主动学习和内容分析的研究。这里这里有一些论文可以开始你的研究。

PS 如果可能,使用现成的数据集。从个人经验来看,数据标注是极其困难的。推文阅读起来非常乏味,在你盯着它们看一个小时后,你会犯很多错误,并且会感到无聊。

于 2013-07-25T10:42:27.203 回答