我在哪里可以获得已被归类为企业领域情绪正面/负面的文档语料库?我想要为公司提供评论的大量文档,例如分析师和媒体提供的公司评论。
我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域的语料库,包括对公司的评论?
我在哪里可以获得已被归类为企业领域情绪正面/负面的文档语料库?我想要为公司提供评论的大量文档,例如分析师和媒体提供的公司评论。
我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域的语料库,包括对公司的评论?
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
您可以使用带有表情符号的 twitter,如下所示:http ://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a- Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
希望这能让你开始。如果您对否定、情感范围等特定的子任务感兴趣,文献中还有更多内容。
要关注公司,您可以将方法与主题检测结合起来,或者廉价地只提及给定公司的大量提及。或者,您可以让 Mechanical Turkers 对您的数据进行注释。
这是我几周前从我的博客中写的一个列表。其中一些数据集最近已包含在 NLTK Python 平台中。
刘冰的意见词典
MPQA 主观词典
SentiWordNet
哈佛一般询问者
语言查询和字数统计 (LIWC)
维达词典
MPQA 数据集
注:GNU 公共许可证。
Sentiment140(推文)
STS-Gold(推文)
客户评论数据集(产品评论)
包含在 NLTK Python 平台中
优点和缺点数据集(优点和缺点句子)
<pros>
:标记或标记的句子列表<cons>
包含在 NLTK Python 平台中
比较句(评论)
包含在 NLTK Python 平台中
桑德斯分析推特情绪语料库(推文)
5513 条手工分类的推文,包含 4 个不同的主题。由于 Twitter 的 ToS,包含一个小的 Python 脚本来下载所有推文。情绪分类本身是免费提供的,没有任何限制。它们可用于商业产品。它们可能会被重新分配。它们可能会被修改。
西班牙语推文(推文)
SemEval 2014(推文)
您不得重新分发推文、注释或获得的语料库(来自自述文件)
各种数据集(评论)
各种数据集#2(评论)
参考:
这里还有一些;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
如果您有一些关于您想要探索的领域的资源(媒体渠道、博客等),您可以创建自己的语料库。我在python中这样做:
创建语料库是一项艰巨的预处理、检查、标记等工作,但具有为特定领域准备模型的好处,可多次提高准确性。如果您可以获得已经准备好的语料库,请继续进行情绪分析;)
我不知道有任何这样的语料库可以免费获得,但是您可以在未标记的数据集上尝试一种无监督的方法。
您可以从 Datafiniti 获得大量在线评论。大多数评论都带有评级数据,这将提供比正面/负面更多的情绪粒度。这是带有评论的企业列表,这是带有评论的产品列表。