50

标题几乎概括了这个问题。我注意到在一些论文中,人们提到了 NER 的 BILOU 编码方案,而不是典型的 BIO 标记方案(例如 Ratinov 和 Roth 在 2009 年的这篇论文http://cogcomp.cs.illinois.edu/page /publication_view/199 )

通过使用 2003 CoNLL 数据,我知道

B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)

虽然有人告诉我 BILOU 中的词代表

B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'

我还看到人们引用另一个标签

E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag

我对 NER 文献很陌生,但我一直无法找到清楚解释这些标签的东西。我的问题特别涉及“最后”和“结束”标签之间的区别,以及“单位”标签代表什么。

4

6 回答 6

47

根据 Clear TK 中的一个问题和一个补丁,BILOU 似乎代表“多令牌块的开始、内部和最后一个令牌、单位长度块和外部”(强调添加)。例如,用括号表示的分块

(foo foo foo) (bar) no no no (bar bar)

可以用 BILOU 编码为

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar
于 2013-06-15T13:14:05.677 回答
14

我想补充一些比较 BIO 和 BILOU 方案的经验。我的实验仅在一个数据集上进行,可能不具有代表性。

我的数据集包含大约 35,000 个简短的话语(2-10 个标记),并使用 11 个不同的标签进行注释。换句话说,有 11 个命名实体。

使用的特征包括单词、左右2-grams、1-5个字符ngrams(除了中间的)、形状特征等。很少有实体也有地名录支持。

我打乱了数据集并将其分成 80/20 部分:训练和测试。这个过程重复了 5 次,对于每个实体,我记录了 Precision、Recall 和 F1-measure。绩效是在实体级别衡量的,而不是像 Ratinov & Roth,2009 年的论文那样在代币级别衡量。

我用来训练模型的软件是 CRFSuite。我使用了 c1=0 和 c2=1 的 L-BFGS 求解器。

首先,5折比较的测试结果非常相似。这意味着每次运行几乎没有变化,这很好。其次,BIO 方案的性能与 BILOU 方案非常相似。如果有任何显着差异,可能是在 Precision、Recall 和 F1-measures 中的句号之后的第三或第四位。

结论:在我的实验中,BILOU 方案并不比 BIO 方案好(但也不差)。

于 2015-06-26T21:07:01.130 回答
4
B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W/S = Unit-length / Whole / Singleton

所以 BILOU 与 IOBES 和 BMEWO 相同。

乔等人。比较不同 IO、IB、IE、IOB、IOBES 等注释变体的性能。https://www.academia.edu/12852833/Named_entity_recognition_with_multiple_segment_representations

还有 BMEWO+,它将有关周围词类的更多信息放在外部标记(因此为“O plus”)。在此处查看详细信息https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/

于 2017-12-12T09:44:40.697 回答
1

这只是为您的标签提供更多上下文,说明实体的哪个部分。

 BILOU Method/Schema

 | ------|--------------------|
 | BEGIN | The first token    |
 | ------|--------------------| 
 | IN    | An inner token     |
 | ------|--------------------|
 | LAST  | The final token    |
 | ------|--------------------|
 | Unit  | A single-token     |
 | ------|--------------------|
 | Out   | A non-entity token |
 | ------|--------------------|

生物

更复杂的注释方法区分命名实体的结尾和单个实体。这种方法称为 BIOES 用于 Begin、Inside、Outside、End、Single。


IOB(例如 CoNLL 2003)

IOB(或 BIO)代表开始、内部和外部。用 O 标记的词在命名实体之外


欲了解更多详细信息,请通过以下链接

    URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)

    URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf
于 2021-01-08T05:20:48.187 回答
0
  • B - '开始'
  • 我 - '里面'
  • L - '最后'
  • O - '外部/其他'
  • U - 'unigram'
于 2020-11-20T18:22:21.477 回答
0

BIO除了BILOU以下几点:

  1. 在中,特定“集群”中BILOU的最后一个标签将转换为. 例如。IIL
BIO - B-foo, I-foo, I-foo, O, O, O, B-bar, I-bar
BILOU - B-foo, I-foo, L-foo, O, O, O, B-bar, L-bar
  1. BILOU中,任何独立标签都将转换为U标签。例如。
BIO - B-foo, O, O, O, B-bar
BILOU - U-foo, O, O, O, U-bar

以下是一组用BIOBILOU表示的相同标签:

BIO - B-foo, I-foo, I-foo, O, O, B-bar, I-bar, O, B-bar, O
BILOU - B-foo, I-foo, L-foo, O, O, B-bar, L-bar, O, U-bar, O
于 2020-11-29T09:32:02.947 回答