57

我在哪里可以获得已被归类为企业领域情绪正面/负面的文档语料库?我想要为公司提供评论的大量文档,例如分析师和媒体提供的公司评论。

我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域的语料库,包括对公司的评论?

4

6 回答 6

37

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

您可以使用带有表情符号的 twitter,如下所示:http ://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a- Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

希望这能让你开始。如果您对否定、情感范围等特定的子任务感兴趣,文献中还有更多内容。

要关注公司,您可以将方法与主题检测结合起来,或者廉价地只提及给定公司的大量提及。或者,您可以让 Mechanical Turkers 对您的数据进行注释。

于 2011-09-26T12:20:47.963 回答
25

这是我几周前从我的博客中写的一个列表。其中一些数据集最近已包含在 NLTK Python 平台中。

词典


数据集


参考:

于 2015-10-19T13:30:28.863 回答
12

这里还有一些;

http://inclass.kaggle.com/c/si650winter11

http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html

于 2011-09-26T16:53:40.917 回答
4

如果您有一些关于您想要探索的领域的资源(媒体渠道、博客等),您可以创建自己的语料库。我在python中这样做:

  • 使用 Beautiful Soup http://www.crummy.com/software/BeautifulSoup/来解析我想要分类的内容。
  • 将那些表示对公司的正面/负面意见的句子分开。
  • 使用 NLTK 来处理这个句子,tokenize words,POS tagging 等。
  • 使用 NLTK PMI 计算仅在一类中最常见的二元组或三元组

创建语料库是一项艰巨的预处理、检查、标记等工作,但具有为特定领域准备模型的好处,可多次提高准确性。如果您可以获得已经准备好的语料库,请继续进行情绪分析;)

于 2012-03-07T15:45:12.463 回答
1

我不知道有任何这样的语料库可以免费获得,但是您可以在未标记的数据集上尝试一种无监督的方法。

于 2011-09-26T08:40:00.627 回答
0

您可以从 Datafiniti 获得大量在线评论。大多数评论都带有评级数据,这将提供比正面/负面更多的情绪粒度。这是带有评论的企业列表,这是带有评论的产品列表

于 2013-06-20T19:46:40.673 回答