我有一个由柯林斯解析器注释的数据集。现在,我将数据集中每个单词的 POS 作为一个特征。问题是我不需要细粒度的 POS。所以,我结合了一些标签。例如,我假设“动词”类别下的所有 VBD、VBP、VBZ、VBG。对于名词,我假设 NNP 和 NNS 为“名词”类别。
因此,这是我在完成所有组合后拥有的 POS 标签列表:
VB,NN,TO,JJ,IN,EX,RB,WP,PRP,MD,UH,WRB,WDT,RP,CD,POS,DT,PRP$,WP$,CC,RBR
现在,我的问题是在哪里可以找到粗粒度的 POS 标签列表?有没有标准的粗粒度 POS 标签列表?
在我的系统中,如果我不结合其他 POS 标签,我可以获得更好的结果。我想知道是否允许我保留当前列表?或者我也应该将它们结合起来?
提前致谢,