0

我正在尝试根据 IOB/Sequence 标签识别和分类实体类型。

例如:

Alex  B-PER
Tan   I-PER
is O
a O
president O
. O

我只能通过标记对其进行分类,这意味着它将 Alex B-PER 和 Tan I-PER 分类为不同的类/实体类型。

所以我的问题是如何将 Alex B-PER 和 Tan I-PER 分类为一个/同一类,即 PERSON?

谢谢你。

4

1 回答 1

3

所有需要的信息都已包含在BIO 编码中。

您只需要遍历所有标记-标签对:如果找到 BX 标签,则它是 X 实体的开始(在您的示例中 - 它是 pair [Alex_B-PER]),因此创建新实体,第一个标记是带有 B_X 标签的标记;当下一个标签是 IX 时,将相应的标记附加到创建的 X 实体(在您的示例中 - 它是 pair [Tan_I-PER] - 所以您的实体是[Alex Tan_PER])。如果下一个标签是 BY,则像以前一样创建新实体;如果下一个标签是 O,那就走得更远。

于 2015-06-04T14:27:17.023 回答