我的应用程序要求我指出短语(名词或动词)的开头。我的葡萄牙语语料库中有这样的信息:
Me pron-pers *B-NP
pergunto v-fin B-VP
semper adv *B-ADVP quem
pron-indp *B-NP
podia v-fin B-VP
ter v-inf I-VP
sido v-pcp I-VP
aquele pron-det B-NP
jovem adj I-NP
alemãon *I-NP
. . ○
语法类似于 CONLL 2000,但 * 标记了短语的开头。我的问题是:Chunker 应该支持头部吗?您是否知道任何其他语料库来训练还包括头部的 Chunker,或者它是我的特殊性?
- 编辑 -
我尝试训练分类器并得到了很好的结果:F1 分数是 0.94,没有头标记,有 0.93。我认为没关系。问题是 OpenNLP chunker API 不支持这个标记,并且在创建 span 时会感到困惑。我更改了 OpenNLP 代码来处理它,我想知道它是否是一个好的补丁,但由于它不常见,我不应该发送补丁。