我正在按照教程https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/使用 BERT 进行命名实体识别。
在进行微调时,在将标记输入模型之前,作者会:
input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
maxlen=MAX_LEN, dtype="long", value=0.0,
truncating="post", padding="post")
根据我的测试,这不会向 id 添加特殊标记。那么我是否遗漏了什么,或者我并不总是需要包含 [CLS] (101) [SEP] (102)?