2

我们正在尝试在英语、意大利语和西班牙语上使用 SyntaxNet,并在我们在这里找到的通用依赖数据集上使用预训练模型https://github.com/tensorflow/models/blob/master/syntaxnet/universal.md

对于意大利语和西班牙语,我们在收缩和 clitics 的标记化水平上遇到了一些问题。缩略词是介词和限定词的组合,因此我们希望将它们分成两部分。我们注意到分词器总是失败,这意味着对句子的整个分析都出错了。同样的情况也发生在 clitics 身上。

我们推出的模型如下:

MODEL_DIRECTORY=../pretrained/Italian
cat /mnt/test_ita.split | syntaxnet/models/parsey_universal/tokenize.sh \
                        $MODEL_DIRECTORY > /mnt/test_ita.tokenized

下面是我们现在获得的输出示例以及我们希望拥有的输出示例。

意大利语 (SyntaxNet analisys)

1       Sarebbe _       VERB    V       Mood=Cnd|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|fPOS=VERB++V      2       cop     _   _
2       bello   _       ADJ     A       Gender=Masc|Number=Sing|fPOS=ADJ++A     0       ROOT    _       _
3       esserci _       PRON    PE      fPOS=NOUN++S    2       nsubj   _       _
4       .       _       PUNCT   FS      fPOS=PUNCT++FS  2       punct   _       _

意大利语(所需输出)

1       Sarebbe _       VERB    V       Mood=Cnd|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|fPOS=VERB++V      2       cop     _   _
2       bello   _       ADJ     A       Gender=Masc|Number=Sing|fPOS=ADJ++A     0       ROOT    _       _
3       esser   _       VERB    V       VerbForm=Inf|fPOS=VERB++V       2       csubj   _       _
4       ci      _       PRON    PC      PronType=Clit|fPOS=PRON++PC     3       advmod  _       _

我们该如何处理这个问题?提前致谢。

4

0 回答 0