0

我正在按照教程https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/使用 BERT 进行命名实体识别。

在进行微调时,在将标记输入模型之前,作者会:

input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
                          maxlen=MAX_LEN, dtype="long", value=0.0,
                          truncating="post", padding="post")

根据我的测试,这不会向 id 添加特殊标记。那么我是否遗漏了什么,或者我并不总是需要包含 [CLS] (101) [SEP] (102)?

4

1 回答 1

0

我也在关注这个教程。它在不添加这些标记的情况下对我有用,但是,我在另一个教程 ( https://vamvas.ch/bert-for-ner ) 中发现最好添加它们,因为模型是以这种格式训练的。

[更新] 其实刚查了一下,发现加上tokens后准确率提升了20%。但请注意,我在不同的数据集上使用它

于 2020-11-05T12:32:05.700 回答