我正在使用基于词典的方法进行文本分析。基本上,我有一长串单词,标有正面/负面/愤怒/悲伤/快乐等。我将要分析的文本中的单词与词典中的单词匹配,以帮助我确定我的文本是否是积极/消极/愤怒/悲伤/快乐等。
但我想分析的文本长度各不相同。它们中的大多数都在 100 个单词以下,但请考虑以下示例:
约翰很高兴。(“快乐”类别中的 1 个单词,得分为 33%)
约翰昨天告诉玛丽他很高兴。(12.5% 快乐)
因此,比较不同的句子,我的第一句话似乎比我的第二句话更“快乐”,仅仅是因为句子更短,并且与“快乐”这个词的比例不成比例。
有没有一种算法或计算方法可以让我进行更公平的比较,也许是考虑到句子的长度?