1

通过一些客户评论,我得出了语料库中的重要主题[成本、副作用、生效时间]。现在对于每个主题,我想用这种方式进行情感分析:导出n个具有独立含义且与主题相关的克。例如,如您所见,图中有 3 个主题。在“time to take effect”主题中,“a while”或“not immediate”等短语是相关的 ngram。

我在 Python 中所做的:对于每个主题,我手动将语料库分为 2 个层次,

  1. 带有与主题相关的单词的句子
  2. 没有与主题相关的单词的句子

然后对于每个单词,我计算了过度索引,希望我们希望在句子中被过度索引的单词。(例如 ['It', 0.001] ['is', 0.001], ['n't', 0.002], ['immediate', 0.042], ['but', 0.002], ['it', 0.001 ], ['does',0.002], ['work', 0.002]) 但这不起作用,因为与主题无关的其他一些词具有非常高的过度索引值。

有没有其他选择可以推导出与主题相关的 n-gram?我的最终目标是产生这样的东西:

在此处输入图像描述

4

0 回答 0