-1

我正在尝试为孟加拉语训练 Maltparser 模型。我用 Conllu 格式注释了一个小型语料库。但它给了我空指针错误。所以我尝试了从 UD 网站收集的一些树库。它适用于这些数据集。我的问题是

  1. 我可以在没有 XPOSTAG 的情况下训练 Maltparser 模型吗,我已经注释了 UPOSTAG 字段,而 XPOSTAG 字段只是 UPOSTAG 的副本。我需要注释 XPOSTAG 吗?这是我的树库和 UD 树库之间的唯一区别

  2. 出于评估目的,我可以自动将 UPOSTAG 转换为 XPOSTAG 吗?

参考:http ://universaldependencies.org/format.html

为了更好地理解,我举了我的银行和 UD 银行的例子

我的示例银行(有错误和一些空白字段)(语言是孟加拉语)

1   Ajake   _   NOUN    NOUN    _   5   iobj    _   _
2   rAtera  _   NOUN    NOUN    _   1   nmod    _   _
3   AbahAoYA    _   NOUN    NOUN    _   5   nsubj   _   _
4   kemana  _   ADV ADV _   5   advmod  _   _
5   hate    _   VERB    VERB    _   0   root    _   _
6   pAre    _   AUX AUX _   5   aux _   SpaceAfter=No
7   ?   _   _   _   _   _   _   _   _

1   Ajake   _   NOUN    NOUN    _   5   iobj    _   _
2   bikAlera    _   NOUN    NOUN    _   1   nmod    _   _
3   paribesha   _   NOUN    NOUN    _   5   nsubj   _   _
4   kemana  _   ADV ADV _   5   advmod  _   _
5   hate    _   VERB    VERB    _   0   root    _   _
6   pAre    _   AUX AUX _   5   aux _   SpaceAfter=No
7   ?   _   _   _   _   _   _   _   _

UD银行

1   From    _   ADP IN  _   3   case    _   _
2   the _   DET DT  _   3   det _   _
3   AP  _   PROPN   NNP _   4   nmod    _   _
4   comes   _   VERB    VBZ _   0   root    _   _
5   this    _   DET DT  _   6   det _   _
6   story   _   NOUN    NN  _   4   nsubj   _   _
7   :   _   PUNCT   :   _   4   punct   _   _

1   President   _   PROPN   NNP _   2   compound    _   _
2   Bush    _   PROPN   NNP _   5   nsubj   _   _
3   on  _   ADP IN  _   4   case    _   _
4   Tuesday _   PROPN   NNP _   5   nmod    _   _
5   nominated   _   VERB    VBD _   0   root    _   _
6   two _   NUM CD  _   7   nummod  _   _
7   individuals _   NOUN    NNS _   5   dobj    _   _
8   to  _   PART    TO  _   9   mark    _   _
9   replace _   VERB    VB  _   5   advcl   _   _
10  retiring    _   VERB    VBG _   11  amod    _   _
11  jurists _   NOUN    NNS _   9   dobj    _   _
12  on  _   ADP IN  _   14  case    _   _
13  federal _   ADJ JJ  _   14  amod    _   _
14  courts  _   NOUN    NNS _   11  nmod    _   _
15  in  _   ADP IN  _   18  case    _   _
16  the _   DET DT  _   18  det _   _
17  Washington  _   PROPN   NNP _   18  compound    _   _
18  area    _   NOUN    NN  _   14  nmod    _   _
19  .   _   PUNCT   .   _   5   punct   _   _
4

1 回答 1

0

好的,我找到了第一个问题的解决方案。您不需要 XPOSTAG,复制 UPOSTAG 将允许培训。我的问题是没有单词或标点符号“?” 在问题中,可以留空。它必须被标记并且必须依赖于根。它解决了我的问题。

在第二个问题的情况下,答案是模棱两可的。UPOSTAG 和 XPOSTAG 之间没有有效的一对一关系,因为它依赖于语言。任何使用 Penn Tree Bank 标签的表格都可以使用。但需要后处理以确保准确性。

于 2017-02-24T15:25:08.803 回答