使用情绪评级词典计算情绪的实际公式是什么。我使用的词典包含 -5 到 5 之间的评分。我想计算单个句子的情绪。要么我必须计算句子中所有情感排名词的平均值,要么只对它们进行总结。
2 回答
有几种方法可以从句子的评分情感成分中计算索引。每个都是基于比较正面和负面的词,每个都有优点和缺点。
对于您的量表,衡量单词的集中趋势将是一个公平的衡量标准,其中分母是得分单词的数量。这是下面采用的“相对比例差”度量的一种形式。您可能不想将总情感词的分数除以所有词,因为这会使每个句子的度量受到非情感词的强烈影响。
如果您不相信您描述的 11 分评级是准确的,您可以根据其符号将其分类为正面或负面。然后,您可以应用以下方法,其中每个P和N指的是正面和负面编码情感词的计数, O是所有其他词的计数(因此总词数 = P + N + O )。
绝对比例差。界限:[0,1]
情绪 = ( P - N ) / ( P + N + O )
缺点:句子的分数受非情感相关内容的影响。
相对比例差。界限:[-1, 1]
情绪 = ( P - N ) / ( P + N )
缺点:一个句子的分数可能倾向于在量表端点附近非常强烈地聚集(因为它们可能主要或仅包含正面或负面的内容)。
逻辑量表。界限:[-infinity, +infinity]
情绪 = log( P + 0.5) - log( N + 0.5)
这往往具有最平滑的特性,并且在零附近对称。0.5 更平滑以防止 log(0)。
有关详细信息,请参阅William Lowe、Kenneth Benoit、Slava Mikhaylov 和 Michael Laver。(2011 年)“从编码的政治文本中扩展政策偏好”。立法研究季刊 26(2 月 1 日):123-155。我们比较了它们在衡量左右意识形态方面的属性,但我们讨论的所有内容也适用于正负情绪。
您可以使用 R 工具进行情绪计算。这是您可以参考的链接: https ://sites.google.com/site/miningtwitter/questions/sentiment/analysis