dataset - 用于情绪分析的好数据集？

Question

我正在从事情绪分析，我正在使用此链接中给出的数据集：http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html并且我已将数据集划分为 50:50 的比例。50%用作测试样本，50%用作训练样本，从训练样本中提取特征并使用Weka分类器进行分类，但我的预测准确率约为70-75%。

任何人都可以建议一些其他可以帮助我提高结果的数据集 - 我使用 unigram、bigram 和 POSTtags 作为我的特征。

score 26 · Accepted Answer

获取情感分析数据集的来源有很多：

来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html的巨大 ngrams 数据集
http://www.sananalytics.com/lab/twitter-sentiment/
http://inclass.kaggle.com/c/si650winter11/data
http://nlp.stanford.edu/sentiment/treebank.html
或者您可以查看这个全球 ML 数据集存储库：https ://archive.ics.uci.edu/ml

无论如何，这并不意味着它会帮助您为当前数据集获得更好的准确性，因为语料库可能与您的数据集有很大不同。除了降低测试百分比与训练之外，您还可以：测试其他分类器或使用半自动包装器（如 CVParameterSelection 或 GridSearch）微调所有超参数，如果合适，甚至可以使用 auto-weka。

很少使用 50/50，80/20 是相当普遍的比率。更好的做法是使用：60% 用于训练，20% 用于交叉验证，20% 用于测试。

score 3 · Accepted Answer

我开始在一个地方收集情绪分析工具/数据集/词典，它也可能对你有用：https ://github.com/laugustyniak/awesome-sentiment-analysis

如果您想添加更多内容或只是写信给我，请启动 PR。我在亚马逊数据 [数百万条评论] 上做了很多工作。

score 0 · Accepted Answer

以下是给出单个单词情绪的数据集列表。 http://positivewordsresearch.com/sentiment-analysis-resources/

dataset - 用于情绪分析的好数据集？

3 回答 3

Related

Reference