我目前正在使用在线旅行评论进行方面级别的情感分析项目。
我Stanford CoreNLP
用来完成事情。到目前为止,我已经设法通过 POS 标记和对评论内容进行词形还原来预处理数据。
我阅读了几篇与情感分析相关的论文,看起来下一步是从评论文本中提取方面术语以及它们的情感极性。我在 Python NLTK 中看到了一个视频教程,其中使用正则表达式来查找 POS 标记之间的关系词来查找名词短语等。我想使用斯坦福依赖解析器做同样的事情。
不幸的是,我不明白如何使用 Stanford Dependency Parser 的输出来编写这样的规则来识别方面术语。
这两天,我一直在寻找一个示例 Java 代码,它可以解释我如何准确地完成这项任务。但到目前为止,没有运气。
如果有人能指出我可以查看并理解该过程的教程/示例代码,我将不胜感激。
假设我有一个类似于以下的输出;
(ROOT
(S
(NP (PRP It))
(VP (VBZ is) (RB not)
(NP
(NP (DT a) (NN museum))
(PP (CC but)
(NP
(NP (DT a) (VBG living) (JJ historic) (NN town))
(PP (IN with)
(NP (JJ wonderful) (NNS places)))
(S
(VP (TO to)
(VP
(VP (VB eat)
(NP (NN drink)))
(CC and)
(VP (VB do)
(NP (NN shopping))))))))))
如何提取博物馆、吃、喝、购物等方面?
任何帮助是极大的赞赏。