我们正在尝试在英语、意大利语和西班牙语上使用 SyntaxNet,并在我们在这里找到的通用依赖数据集上使用预训练模型https://github.com/tensorflow/models/blob/master/syntaxnet/universal.md。
对于意大利语和西班牙语,我们在收缩和 clitics 的标记化水平上遇到了一些问题。缩略词是介词和限定词的组合,因此我们希望将它们分成两部分。我们注意到分词器总是失败,这意味着对句子的整个分析都出错了。同样的情况也发生在 clitics 身上。
我们推出的模型如下:
MODEL_DIRECTORY=../pretrained/Italian
cat /mnt/test_ita.split | syntaxnet/models/parsey_universal/tokenize.sh \
$MODEL_DIRECTORY > /mnt/test_ita.tokenized
下面是我们现在获得的输出示例以及我们希望拥有的输出示例。
意大利语 (SyntaxNet analisys)
1 Sarebbe _ VERB V Mood=Cnd|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|fPOS=VERB++V 2 cop _ _
2 bello _ ADJ A Gender=Masc|Number=Sing|fPOS=ADJ++A 0 ROOT _ _
3 esserci _ PRON PE fPOS=NOUN++S 2 nsubj _ _
4 . _ PUNCT FS fPOS=PUNCT++FS 2 punct _ _
意大利语(所需输出)
1 Sarebbe _ VERB V Mood=Cnd|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|fPOS=VERB++V 2 cop _ _
2 bello _ ADJ A Gender=Masc|Number=Sing|fPOS=ADJ++A 0 ROOT _ _
3 esser _ VERB V VerbForm=Inf|fPOS=VERB++V 2 csubj _ _
4 ci _ PRON PC PronType=Clit|fPOS=PRON++PC 3 advmod _ _
我们该如何处理这个问题?提前致谢。