python - 使用 Python-Treetaggerwrapper 进行分块

Question

Treetagger 可以进行 POS 标记以及文本分块，这意味着提取动词和名词性从句，如下面的德语示例所示：

$ echo 'Das ist ein Test.' | cmd/tagger-chunker-german
    reading parameters ...
    tagging ...
     finished.
<NC>
Das PDS die
</NC>
<VC>
ist VAFIN   sein
</VC>
<NC>
ein ART eine
Test    NN  Test
</NC>
.   $.  .

我试图弄清楚如何使用 Python 中的 Treetaggerwrapper 来做到这一点（因为它比直接调用 Treetagger 更快），但我不知道它是如何完成的。该文档将分块称为预处理，因此我尝试使用它：

tags = tagger.tag_text(u"Dieser Satz ist ein Satz.",prepronly=True)

但输出只是一个单词列表，没有添加任何信息。我开始认为 Wrapper 所称的 Chunking 与实际标注者所称的 Chunking 不同，但也许我只是遗漏了一些东西？任何帮助，将不胜感激。

score 2 · Accepted Answer

原始海报在他的假设中是正确的。treetaggerwrapper（从 2.2.4 版开始）将分块定义为仅仅是“文本的预处理”，并且在这个意义上并没有完全包装 TreeTagger 的功能。来自treetaggerwrapper.py：

管理文本的预处理（分块）代替外部 Perl 脚本，就像在基本 TreeTagger 安装中一样，因此避免每次必须标记一段文本时都启动 Perl。

但是细看tagger-chunker-german可以看出，获取子句和标签是一串操作，实际上调用了TreeTagger 3次：

$ echo 'Das ist ein Test.' | cmd/tree-tagger-german | perl -nae 'if ($#F==0){print} else {print "$F[0]-$F[1]\n"}' | bin/tree-tagger lib/german-chunker.par -token -sgml -eps 0.00000001 -hyphen-heuristics -quiet | cmd/filter-chunker-output-german.perl | bin/tree-tagger -quiet -token -lemma -sgml lib/german-utf8.par

而treetaggerwrapper的标记命令（显示在中tagcmdlist）实际上是一次性调用（在它自己对文本进行预处理之后）：

bin/tree-tagger -token -lemma -sgml -quiet -no-unknown lib/german-utf8.par

扩展它以进行分块的入口点是行

"tagparfile": "german-utf8.par",

你会在哪里定义类似的东西

"chunkingparfile": "german-chunker.par",

tagger-chunker-german并在操作链之后使用此其他 parfile 向 TreeTagger 发出额外的调用。然后，您可能仍然需要从中复制一些额外的逻辑cmd/filter-chunker-output-german.perl。

score 1 · Accepted Answer

使用完整的代码示例会更容易，请提供一个以解决其他问题，但我试一试。TreeTaggerWrapper文档有一个很好的例子：

>>> import pprint   # For proper print of sequences.
>>> import treetaggerwrapper
>>> #1) build a TreeTagger wrapper:
>>> tagger = treetaggerwrapper.TreeTagger(TAGLANG='en')
>>> #2) tag your text.
>>> tags = tagger.tag_text("This is a very short text to tag.")
>>> #3) use the tags list... (list of string output from TreeTagger).
>>> pprint.pprint(tags)
['This\tDT\tthis',
 'is\tVBZ\tbe',
 'a\tDT\ta',
 'very\tRB\tvery',
 'short\tJJ\tshort',
 'text\tNN\ttext',
 'to\tTO\tto',
 'tag\tVV\ttag',
 '.\tSENT\t.']
>>> # Note: in output strings, fields are separated with tab chars (\t).

请注意，这是 Python 3 的示例，因为文本前面没有u来将其声明为 Unicode。这是因为 Python 3 将 Unicode 作为默认值，而 Python 2.7 需要像您的帖子中那样声明它。这就提出了您使用的是哪个 Python 版本的问题。

分块

分块是多标记序列的标记，例如黄狗：

Word -> POS-标签
-> DT（文章）
黄色 -> JJ（形容词）
狗 -> NN（名词）

所有三个单词一起是一个块，将被标记为 NP（名词短语）。

score 0 · Accepted Answer

我认为在 treetaggerwrapper 中他使用二进制文件来执行标记任务，因为我在 treetaggerwrapper.py 中找到了这个：

    # ----- Set binary by platform.
    if ON_WINDOWS:
        self.tagbin = os.path.join(self.tagbindir, "tree-tagger.exe")
    elif ON_MACOSX or ON_POSIX:
        self.tagbin = os.path.join(self.tagbindir, "tree-tagger")

那么答案就很明显了，treetagger 库本身并没有为 chunker 提供二进制文件，导致 treetaggerwrapper 和另一个库“treetagger-python”没有 chunk 功能。

python - 使用 Python-Treetaggerwrapper 进行分块

3 回答 3

Related

Reference