我正在使用 Huggingface 的transformers
库并想使用 BERT 执行 NER。我试图找到一个明确的示例,说明如何使用 BERT 正确格式化 NER 的数据。从论文和我发现的评论中,我并不完全清楚。
假设我们有以下句子和标签:
sent = "John Johanson lives in Ramat Gan."
labels = ['B-PER', 'I-PER', 'O', 'O', 'B-LOC', 'I-LOC']
我们输入到模型的数据会是这样的:
sent = ['[CLS]', 'john', 'johan', '##son', 'lives', 'in', 'ramat', 'gan', '.', '[SEP]']
labels = ['O', 'B-PER', 'I-PER', 'I-PER', 'O', 'O', 'B-LOC', 'I-LOC', 'O', 'O']
attention_mask = [0, 1, 1, 1, 1, 1, 1, 1, 1, 0]
sentence_id = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
?
谢谢!