nlp - Chunker 是否应该找到短语的开头？

Question

我的应用程序要求我指出短语（名词或动词）的开头。我的葡萄牙语语料库中有这样的信息：

Me pron-pers *B-NP
pergunto v-fin B-VP
semper adv *B-ADVP quem
pron-indp *B-NP
podia v-fin B-VP
ter v-inf I-VP
sido v-pcp I-VP
aquele pron-det B-NP
jovem adj I-NP
alemãon *I-NP
. . ○

语法类似于 CONLL 2000，但 * 标记了短语的开头。我的问题是：Chunker 应该支持头部吗？您是否知道任何其他语料库来训练还包括头部的 Chunker，或者它是我的特殊性？

- 编辑 -

我尝试训练分类器并得到了很好的结果：F1 分数是 0.94，没有头标记，有 0.93。我认为没关系。问题是 OpenNLP chunker API 不支持这个标记，并且在创建 span 时会感到困惑。我更改了 OpenNLP 代码来处理它，我想知道它是否是一个好的补丁，但由于它不常见，我不应该发送补丁。

score 2 · Accepted Answer

我从来没有见过支持head-finding的chunker，所以我无法帮助你使用语料库。如果你已经有一个分块器，你可能会做的是制定一堆规则，在分块器找到它之后指定头部，或者训练一个分类器来这样做。您可以在您的语料库上对其进行训练并将其应用于分块器输出。

nlp - Chunker 是否应该找到短语的开头？

1 回答 1

Related

Reference