3

我有一个由柯林斯解析器注释的数据集。现在,我将数据集中每个单词的 POS 作为一个特征。问题是我不需要细粒度的 POS。所以,我结合了一些标签。例如,我假设“动词”类别下的所有 VBD、VBP、VBZ、VBG。对于名词,我假设 NNP 和 NNS 为“名词”类别。

因此,这是我在完成所有组合后拥有的 POS 标签列表:

VB,NN,TO,JJ,IN,EX,RB,WP,PRP,MD,UH,WRB,WDT,RP,CD,POS,DT,PRP$,WP$,CC,RBR

现在,我的问题是在哪里可以找到粗粒度的 POS 标签列表?有没有标准的粗粒度 POS 标签列表?

在我的系统中,如果我不结合其他 POS 标签,我可以获得更好的结果。我想知道是否允许我保留当前列表?或者我也应该将它们结合起来?

提前致谢,

4

1 回答 1

4

您可以使用 Petrov 的通用标签集。通用标签集数量为 12,大大提高了 POS 标记效率。您可以参考Universal POS tagset您也可以在POS mapping下载一些标记器的代码和映射

于 2014-10-30T13:39:50.917 回答