nlp - 基于词典的文本分析。有什么算法可以进行概率类别分配吗？

Question

我正在使用基于词典的方法进行文本分析。基本上，我有一长串单词，标有正面/负面/愤怒/悲伤/快乐等。我将要分析的文本中的单词与词典中的单词匹配，以帮助我确定我的文本是否是积极/消极/愤怒/悲伤/快乐等。

但我想分析的文本长度各不相同。它们中的大多数都在 100 个单词以下，但请考虑以下示例：

约翰很高兴。（“快乐”类别中的 1 个单词，得分为 33%）

约翰昨天告诉玛丽他很高兴。（12.5% 快乐）

因此，比较不同的句子，我的第一句话似乎比我的第二句话更“快乐”，仅仅是因为句子更短，并且与“快乐”这个词的比例不成比例。

有没有一种算法或计算方法可以让我进行更公平的比较，也许是考虑到句子的长度？

score 3 · Accepted Answer

正如许多人指出的那样，您必须深入到句法树，类似于这项工作。

语法分析

另外，请考虑一下：
约翰昨天告诉玛丽他很高兴。
约翰昨天告诉玛丽她很高兴。

第二个没有说明约翰的幸福，但天真的算法很快就会被混淆。因此，除了语法解析之外，代词还必须表示与主题的链接。特别是，这意味着算法应该知道 John 是he和 Mary 是she。

score 2 · Accepted Answer

忽略由提出的否定问题HappyTimeGopher，您可以简单地将句子中快乐词的数量除以句子的长度。你得到：

约翰很高兴。（“快乐”类别中的 1 个单词 / 句子中的 3 个单词 = 快乐得分为 33%）

约翰昨天告诉玛丽他很高兴。（1/8 = 12.5% 快乐）

请记住，基于单词列表的方法只会走这么远。“我对食物很满意，但服务员很糟糕”的分数应该是多少？考虑使用更复杂的系统——以下论文是您开始研究的好地方：

2 回答 2