bert-language-model - 在微调 BERT 时，特殊令牌 [CLS] [SEP] 是否绝对必要？

Question

我正在按照教程https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/使用 BERT 进行命名实体识别。

在进行微调时，在将标记输入模型之前，作者会：

input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
                          maxlen=MAX_LEN, dtype="long", value=0.0,
                          truncating="post", padding="post")

根据我的测试，这不会向 id 添加特殊标记。那么我是否遗漏了什么，或者我并不总是需要包含 [CLS] (101) [SEP] (102)？

score 0 · Accepted Answer

我也在关注这个教程。它在不添加这些标记的情况下对我有用，但是，我在另一个教程 ( https://vamvas.ch/bert-for-ner ) 中发现最好添加它们，因为模型是以这种格式训练的。

[更新] 其实刚查了一下，发现加上tokens后准确率提升了20%。但请注意，我在不同的数据集上使用它

bert-language-model - 在微调 BERT 时，特殊令牌 [CLS] [SEP] 是否绝对必要？

1 回答 1

Related

Reference