0

我正在使用基于词典的方法进行文本分析。基本上,我有一长串单词,标有正面/负面/愤怒/悲伤/快乐等。我将要分析的文本中的单词与词典中的单词匹配,以帮助我确定我的文本是否是积极/消极/愤怒/悲伤/快乐等。

但我想分析的文本长度各不相同。它们中的大多数都在 100 个单词以下,但请考虑以下示例:

约翰很高兴。(“快乐”类别中的 1 个单词,得分为 33%)

约翰昨天告诉玛丽他很高兴。(12.5% 快乐)

因此,比较不同的句子,我的第一句话似乎比我的第二句话更“快乐”,仅仅是因为句子更短,并且与“快乐”这个词的比例不成比例。

有没有一种算法或计算方法可以让我进行更公平的比较,也许是考虑到句子的长度?

4

2 回答 2

3

正如许多人指出的那样,您必须深入到句法树,类似于这项工作

语法分析

另外,请考虑一下:
约翰昨天告诉玛丽很高兴。
约翰昨天告诉玛丽很高兴。

第二个没有说明约翰的幸福,但天真的算法很快就会被混淆。因此,除了语法解析之外,代词还必须表示与主题的链接。特别是,这意味着算法应该知道 John 是he和 Mary 是she

于 2012-08-03T12:07:17.537 回答
2

忽略由 提出的否定问题HappyTimeGopher,您可以简单地将句子中快乐词的数量除以句子的长度。你得到:

约翰很高兴。(“快乐”类别中的 1 个单词 / 句子中的 3 个单词 = 快乐得分为 33%)

约翰昨天告诉玛丽他很高兴。(1/8 = 12.5% 快乐)

请记住,基于单词列表的方法只会走这么远。“我对食物很满意,但服务员很糟糕”的分数应该是多少?考虑使用更复杂的系统——以下论文是您开始研究的好地方:

  • Choi, Y. 和 Cardie, C. (2008)。使用组合语义学习作为次句子情感分析的结构推理。
  • Moilanen, K. 和 Pulman, S. (2009)。多实体情绪评分。
  • Pang, B. 和 Lee, L. (2008)。意见挖掘和情绪分析。
  • Pang, B.、Lee, L. 和 Vaithanathan, S. (2002)。竖起大拇指?:使用机器学习技术进行情绪分类。
  • Turney, PD 和 Littman, ML (2003)。衡量赞美和批评:从联想中推断语义方向。
于 2012-08-03T10:00:55.357 回答