我正在尝试使用 Apertium 的标记器对一些意大利语句子进行 POS 标记。虽然根据Apertium GitHub 页面,除了形态分析之外,我还应该得到表面形式作为输出,但我只得到分析。我也想要表面形式。我无法推断它,因为标记器不一定标记单个标记,所以我不能简单地标记原始句子并循环它或使用标记器的输出压缩它。
根据 GitHub 页面:
In [1]: import apertium
In [2]: tagger = apertium.Tagger('ita')
In [3]: tagger.tag('gatti').
Out[3]: [gatti/gatto<n><m><pl>]
我得到了什么:
In [1]: import apertium
In [2]: tagger = apertium.Tagger('ita')
In [3]: tagger.tag('gatti') # 'gatti' is the surface form
Out[3]: [gatto<n><m><pl>]
我怎样才能得到表面形式?如果我一次提供一个令牌,这不会有问题,因为我会知道令牌是什么。但是一句话,我不知道标记器是如何创建块的。