6

我一直在尝试使用CMU 的 TurboParser生成的依赖解析树。它完美无缺。然而,问题在于文档很少。我需要准确理解他们解析器的输出。例如,句子“我用统计数据解决了问题。 ”生成以下输出:

1   I           _   PRP PRP _   2   SUB
2   solved      _   VBD VBD _   0   ROOT
3   the         _   DT  DT  _   4   NMOD
4   problem     _   NN  NN  _   2   OBJ
5   with        _   IN  IN  _   2   VMOD
6   statistics  _   NNS NNS _   5   PMOD
7   .           _   .   .   _   2   P

我还没有找到任何文档可以帮助理解各个列代表什么,以及倒数第二列(2、0、4、2、...)中的索引是如何创建的。另外,我不知道为什么有两列专门用于词性标签。任何帮助(或指向外部文档的链接)都会有很大帮助。

PS 如果你想试试他们的解析器,这里是他们的在线演示

PPS 请不要建议使用斯坦福的依赖解析输出。我对线性规划算法感兴趣,这不是斯坦福的 NLP 系统所做的。

4

2 回答 2

6

以下是 TurboParser 输出的每一列的含义:

  1. 令牌的 id,即它在句子中的从一开始的索引
  2. 原文中的原始标记
  3. lemma,令牌的词形化形式(此处为空,因为没有设置词形化器)
  4. 标记(粗粒度词性标记)
  5. tag(细粒度词性标签,与4.同TurboParser)
  6. 形态特征(此处为空)
  7. 令牌的头部,由它的索引表示(根令牌的头部值为0
  8. 当前令牌与其头部的关系

您提供的生成输出可以表示为基于依赖关系的解析树

基于依赖的解析树的表示

有关 CoNLL-X 格式的更多信息:

于 2015-02-10T22:28:53.800 回答
0

我不知道 TurboParser,但我的猜测是第一个数字表示令牌的 id,第二个数字表示其调控器的 id。也就是说,对于您的示例:

solved(
 I,
 problem(the),
 with(statistics),
 .
)

实际上,那是 CoNLL-X 格式。您可以在这里获得更多信息:http: //ilk.uvt.nl/conll/#dataformat

于 2014-06-24T21:10:22.653 回答