9

我的目标是分析一些语料库(目前是 Twitter)的情感内容。就在今天,我意识到搜索词干比拥有详尽的情感词干列表更有意义。所以我一直在探索 nltk.stem 才意识到有 4 种不同的词干分析器。我想问问 stackoverflow 语言学家 LancasterStemmer、PorterStemmer、RegexpStemmer、RSLPStemmer 或 WordNetStemmer 是否最好有一些理由。

4

2 回答 2

9

这可能与您所要求的有所不同,但 Nodebox Lingustics 库包含一个is_emotive()函数,该函数似乎检查单词以查看它们是否是某些情感词的递归下位词。来自常识.py

    ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
    other = ["emotion", "feeling", "expression"]

不是词干分析器,而是一种有趣的检查方法。

于 2010-01-22T08:45:25.147 回答
7

RSLP 用于葡萄牙语。我猜你想要英语。正则表达式会要求您开发自己的词干表达式,所以我认为这也可以忽略。WordnetStemmer 要求您知道单词的词性,因此您必须先进行 pos 标记才能使用它。我使用了 porter 词干算法,它非常好,但是 lancaster 算法更新,所以它可能会更好。您可能想尝试使用词干分析器的组合,从每个词干分析器中选择最短的词干。无论如何,底线是 PorterStemmer 是一个不错的默认选择。

于 2009-08-14T23:21:41.147 回答