我正在玩情绪分析,我正在寻找一些种子数据。周围有免费词典吗?
它可以非常简单:3 组文本/句子,分别代表“正面”、“负面”、“中性”。它不必很大。
最终,我可能会为我的特定用例生成我自己的种子数据,但是在我构建这个东西时,现在有一些东西可以玩会很棒。
我正在玩情绪分析,我正在寻找一些种子数据。周围有免费词典吗?
它可以非常简单:3 组文本/句子,分别代表“正面”、“负面”、“中性”。它不必很大。
最终,我可能会为我的特定用例生成我自己的种子数据,但是在我构建这个东西时,现在有一些东西可以玩会很棒。
UIC 的Bing Liu 和 Minqing Hu有很多数据集:
来自康奈尔大学的Bo Pang还有更多。
如果您对情感词典感兴趣,许多作者已经展示了基于手动构建列表的工作,以及其他用于获取自以为是术语列表的半自动化方法。一种好的方法是从WordNet数据库中派生它,通过使用同义词等关系扩展肯定/否定词的核心。
手动构建列表的一个很好的例子是General Inquirer。
对于派生列表的半自动化方法,请查看Esuli和 Sebastiani 的 SentiWordNet。
我相信这些通常可用于研究,但您可能需要与作者联系,了解将这些资源用于非研究目的。
B.
您可以在此处使用 AFINN 单词列表:
http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010
AFINN 是一个以负五(负)和正五(正)之间的整数来评定价的英语单词列表。Finn Årup Nielsen 在 2009-2011 年手动标记了这些词。该文件是制表符分隔的。有两个版本:
AFINN-111:包含 2477 个单词和短语的最新版本。
AFINN-96:1480 行上的 1468 个独特的单词和短语。请注意,有 1480 行,因为有些单词被列出了两次。单词列表中不完全按字母顺序排列。
我维护了一个用于情感分析的语料库和单词列表(我的 AFINN 就是其中之一):
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Corpora
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Affective_word_lists