我正在尝试根据 IOB/Sequence 标签识别和分类实体类型。
例如:
Alex B-PER
Tan I-PER
is O
a O
president O
. O
我只能通过标记对其进行分类,这意味着它将 Alex B-PER 和 Tan I-PER 分类为不同的类/实体类型。
所以我的问题是如何将 Alex B-PER 和 Tan I-PER 分类为一个/同一类,即 PERSON?
谢谢你。
我正在尝试根据 IOB/Sequence 标签识别和分类实体类型。
例如:
Alex B-PER
Tan I-PER
is O
a O
president O
. O
我只能通过标记对其进行分类,这意味着它将 Alex B-PER 和 Tan I-PER 分类为不同的类/实体类型。
所以我的问题是如何将 Alex B-PER 和 Tan I-PER 分类为一个/同一类,即 PERSON?
谢谢你。
所有需要的信息都已包含在BIO 编码中。
您只需要遍历所有标记-标签对:如果找到 BX 标签,则它是 X 实体的开始(在您的示例中 - 它是 pair [Alex_B-PER]
),因此创建新实体,第一个标记是带有 B_X 标签的标记;当下一个标签是 IX 时,将相应的标记附加到创建的 X 实体(在您的示例中 - 它是 pair [Tan_I-PER
] - 所以您的实体是[Alex Tan_PER]
)。如果下一个标签是 BY,则像以前一样创建新实体;如果下一个标签是 O,那就走得更远。