标题几乎概括了这个问题。我注意到在一些论文中,人们提到了 NER 的 BILOU 编码方案,而不是典型的 BIO 标记方案(例如 Ratinov 和 Roth 在 2009 年的这篇论文http://cogcomp.cs.illinois.edu/page /publication_view/199 )
通过使用 2003 CoNLL 数据,我知道
B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
虽然有人告诉我 BILOU 中的词代表
B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
我还看到人们引用另一个标签
E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag
我对 NER 文献很陌生,但我一直无法找到清楚解释这些标签的东西。我的问题特别涉及“最后”和“结束”标签之间的区别,以及“单位”标签代表什么。