1

这是在使用 LingPipe 机器学习工具进行情感分析的背景下。我必须对大段落中的句子是否具有正面/负面情绪进行分类。我知道 LingPipe 中的以下方法

  1. 根据其极性对整个段落进行分类 - 负极或正极。

    在这里,我还不知道句子级别的极性。我们仍处于段落级别。如何确定段落的句子级别的极性,段落中的句子是正句还是负句?我知道如果一个句子是主观/客观的,LingPipe 能够分类。所以使用这种方法,,,,

    ,,,, 我是不是该

  2. 首先在大量主观/客观的句子上训练 LingPipe。

  3. 使用经过训练的模型从测试段落中提取所有主观句子。
  4. 通过手动将它们标记为正/负,根据提取的极性主观句子训练 LingPipe 分类器。
  5. 现在使用经过训练的极性模型并输入一个测试主观句子(通过将句子通过经过训练的主观/客观模型来完成),然后确定该语句是正面还是负面?

    上述方法有效吗?在上面提出的方法中,我们知道 LingPipe 能够接受大量文本内容(段落)进行极性分类。如果我们只通过一个主观句子进行极性分类,它会做得很好吗?我很困惑!

4

2 回答 2

2

您可能想看看文献中的多层次分析方法,例如

李,S.,等人。(2010)。“利用组合多层次模型进行文档情感分析”,2010 年模式识别国际会议。

Yessenalina,A.,等人。(2010)。“文档级情感分类的多级结构化模型”,2010 年自然语言处理经验方法会议论文集,第 1046-1056 页,麻省理工学院,美国马萨诸塞州,2010 年 10 月 9-11 日。

多级分析方法在信息检索中非常普遍,例如在向量空间相似性搜索的内容索引中。

像 Ling Pipe 这样的环境是一个很好的入门方法,但最终您需要使用较低级别、更细粒度的工具,例如 yura 建议的。

于 2011-09-25T01:12:08.537 回答
1

包括 lingpipe 在内的大多数机器学习库都是基于行的(具有平面特征的对象)。所以如果你想用它做一些层次分类,你应该对你的数据进行去规范化。例如,您可以在相同的特征集中拥有段落和句子的特征。如果您只使用单词分类,您可以创建这样的特征 PARGRAPH_WORDX=true, SENTENCE_WORDX=true。其他一些工具包允许您在没有非规范化的情况下表达您的模型,即所谓的图形模型示例是 CRF、ACRF、马尔可夫模型等您可以在 mallet 和 Factorie 中找到的实现。

于 2011-09-22T15:46:50.450 回答