Penn Treebank标记集对单词“to ”有一个单独的标记TO
,无论它是用于介词意义(例如I went to school
)还是不定式意义(例如I want to eat
)。从整体 NLP 的角度来看,这有什么作用?单独标记不定式“to”具有直观意义,但我看不出将不定式和介词组合在单个标记中的逻辑。
谢谢,如果这不符合堆栈溢出准则,我们深表歉意。
Penn Treebank标记集对单词“to ”有一个单独的标记TO
,无论它是用于介词意义(例如I went to school
)还是不定式意义(例如I want to eat
)。从整体 NLP 的角度来看,这有什么作用?单独标记不定式“to”具有直观意义,但我看不出将不定式和介词组合在单个标记中的逻辑。
谢谢,如果这不符合堆栈溢出准则,我们深表歉意。
不同的语料库提供不同级别的粒度。例如,将此与英国国家语料库进行比较,后者包括三个不同的标签to。
我相信这可能是语料库标记实践的一个属性,而不是出于这种特定的 NLP 性能目的。不难想象这是Penn Treebank 项目 POS 指南的设计决定。(请联系本文的作者以获得进一步的说明。)
为了使 POS标记集不具有单词“to”的单独标记,有时需要将“to”标记为介词,有时需要将“to”标记为“不定式标记”。要做到这一点,人工标注者必须消除“to”这两个角色之间的歧义。一些棘手的案例(需要语法判断)可能需要一些额外的人工时间来消除歧义,考虑到标记的语料库的大小,这也可能导致一些错误标记。如果估计信息增益(从必须消除歧义的粒度)不是那么大,或者如果估计潜在的标记错误太多,这种权衡可能会在效率和正确性方面犯更多错误。