Treetagger 可以进行 POS 标记以及文本分块,这意味着提取动词和名词性从句,如下面的德语示例所示:
$ echo 'Das ist ein Test.' | cmd/tagger-chunker-german
reading parameters ...
tagging ...
finished.
<NC>
Das PDS die
</NC>
<VC>
ist VAFIN sein
</VC>
<NC>
ein ART eine
Test NN Test
</NC>
. $. .
我试图弄清楚如何使用 Python 中的 Treetaggerwrapper 来做到这一点(因为它比直接调用 Treetagger 更快),但我不知道它是如何完成的。该文档将分块称为预处理,因此我尝试使用它:
tags = tagger.tag_text(u"Dieser Satz ist ein Satz.",prepronly=True)
但输出只是一个单词列表,没有添加任何信息。我开始认为 Wrapper 所称的 Chunking 与实际标注者所称的 Chunking 不同,但也许我只是遗漏了一些东西?任何帮助,将不胜感激。