0

我的应用程序要求我指出短语(名词或动词)的开头。我的葡萄牙语语料库中有这样的信息:

Me pron-pers *B-NP
pergunto v-fin B-VP
semper adv *B-ADVP quem
pron-indp *B-NP
podia v-fin B-VP
ter v-inf I-VP
sido v-pcp I-VP
aquele pron-det B-NP
jovem adj I-NP
alemãon *I-NP
. . ○

语法类似于 CONLL 2000,但 * 标记了短语的开头。我的问题是:Chunker 应该支持头部吗?您是否知道任何其他语料库来训练还包括头部的 Chunker,或者它是我的特殊性?

- 编辑 -

我尝试训练分类器并得到了很好的结果:F1 分数是 0.94,没有头标记,有 0.93。我认为没关系。问题是 OpenNLP chunker API 不支持这个标记,并且在创建 span 时会感到困惑。我更改了 OpenNLP 代码来处理它,我想知道它是否是一个好的补丁,但由于它不常见,我不应该发送补丁。

4

1 回答 1

2

我从来没有见过支持head-finding的chunker,所以我无法帮助你使用语料库。如果你已经有一个分块器,你可能会做的是制定一堆规则,在分块器找到它之后指定头部,或者训练一个分类器来这样做。您可以在您的语料库上对其进行训练并将其应用于分块器输出。

于 2011-08-04T09:53:07.190 回答