我正在尝试创建一个情绪分析工具来分析三天内关于曼联足球俱乐部的推文,并确定人们对它们的看法是正面还是负面。我目前正在使用本指南作为指导(Java 是我的编码语言)
http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
我正在使用 Apache Flume 将我的推文下载到 Apache Hadoop 中,然后打算使用 Apache Hive 来查询推文。我也可以使用 Apache Oozie 来有效地划分推文。
在我上面发布的链接中,提到我需要一个训练数据集来训练我将创建的分类器来分析推文。提供的示例分类器有大约 5000 条推文。当我为 uni 的暑期项目做这个时,我觉得我应该创建自己的数据集。
为了使这个分类器有效,我应该使用的最少推文数量是多少?有推荐的号码吗?例如,如果我手动分析一百条推文,或者五百条,或者一千条,它会有效吗?