0

我的数据是来自 Stocktwits 的推文,我尝试使用 python 中的 Vader 库进行情绪分析。问题是正、中性和负字段加起来不等于 1.0。取而代之的是,它们加起来为 2.0。

{'neg':0.0,'neu':2.0,'pos':0.0,'compound':0.0}

这是正常的吗?

4

1 回答 1

2

是的,这很正常。文档中的示例显示了类似的结果:

VADER is smart, handsome, and funny.----------------------------- {'pos': 0.746, 'compound': 0.8316, 'neu': 0.254, 'neg': 0.0}
VADER is smart, handsome, and funny!----------------------------- {'pos': 0.752, 'compound': 0.8439, 'neu': 0.248, 'neg': 0.0}
...
VADER is not smart, handsome, nor funny.------------------------- {'pos': 0.0, 'compound': -0.7424, 'neu': 0.354, 'neg': 0.646}

pos和分数 是属于每个类别的文本比例neuneg比率(因此这些加起来应该是 1... 或通过浮点运算接近它)。如果您想要对给定句子的情绪进行多维测量,这些是最有用的指标。

您可能想使用compound分数:

分数是通过对词典中每个单词的compound价分数求和,根据规则调整,然后归一化到-1(最极端的否定)和+1(最极端的肯定)之间来计算的。如果您想要一个给定句子的单一一维情绪度量,这是最有用的指标。称其为“标准化的加权综合得分”是准确的。

它对于希望设置标准化阈值以将句子分类为正面、中性或负面的研究人员也很有用。

于 2020-07-16T12:09:31.223 回答