16

我正在从事情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html并且我已将数据集划分为 50:50 的比例。50%用作测试样本,50%用作训练样本,从训练样本中提取特征并使用Weka分类器进行分类,但我的预测准确率约为70-75%。

任何人都可以建议一些其他可以帮助我提高结果的数据集 - 我使用 unigram、bigram 和 POSTtags 作为我的特征。

4

3 回答 3

26

获取情感分析数据集的来源有很多:

无论如何,这并不意味着它会帮助您为当前数据集获得更好的准确性,因为语料库可能与您的数据集有很大不同。除了降低测试百分比与训练之外,您还可以:测试其他分类器或使用半自动包装器(如 CVParameterSelection 或 GridSearch)微调所有超参数,如果合适,甚至可以使用 auto-weka。

很少使用 50/50,80/20 是相当普遍的比率。更好的做法是使用:60% 用于训练,20% 用于交叉验证,20% 用于测试。

于 2014-07-07T21:55:10.040 回答
3

我开始在一个地方收集情绪分析工具/数据集/词典,它也可能对你有用:https ://github.com/laugustyniak/awesome-sentiment-analysis

如果您想添加更多内容或只是写信给我,请启动 PR。我在亚马逊数据 [数百万条评论] 上做了很多工作。

于 2018-05-17T19:10:32.007 回答
0

以下是给出单个单词情绪的数据集列表。 http://positivewordsresearch.com/sentiment-analysis-resources/

于 2018-05-27T18:39:36.247 回答