1

Penn Treebank 格式不注释名词短语的内部结构,例如

(NP (JJ crude) (NN oil) (NNS prices))

或者

(NP
    (NP (DT the) (JJ big) (JJ blue) (NN house))
    (SBAR
      (WHNP (WDT that))
      (S
        (VP (VBD was)
          (VP (VBN built)
            (PP (IN near)
              (NP (DT the) (NN river)))))))

我想提取人头(价格和房子)。你知道有什么工具可以做到这一点吗?

4

3 回答 3

9

Michael Collins 的论文(附录 A)包括 Penn Treebank 的头部发现规则,这些规则运行良好且不难实施。但是,它们远非完美,因为这不是最简单的任务。

David Vadas 和 James Curran 在 Penn Treebank 中关于 NP 结构的工作也可能是相关的:

于 2012-04-24T13:29:40.240 回答
1

正如 aab 所建议的那样,简单的确定性寻头规则可以很好地工作(另请参阅 Magerman 或 Charniak 寻头规则以了解类似方法)。

您还可以查看从组成树中提取依赖结构。斯坦福工具集在这方面做得很好:参见http://nlp.stanford.edu/software/stanford-dependencies.shtml

于 2012-04-25T03:42:26.957 回答
1

也可以在 Dan Bikel 的论文中找到英文的head find rules(如果需要源代码,可以在他的解析器软件主页找到)

于 2012-07-19T08:12:18.730 回答