参考Huggingface 的 Transformers 库的文档,我遇到了这些函数add_tokens
。
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
num_added_toks = tokenizer.add_tokens(['new_tok1', 'my_new-tok2'])
model.resize_token_embeddings(len(tokenizer))
我通过在默认词汇表中添加以前不存在的单词来尝试上述方法。但是,在其他所有条件保持不变的情况下,我注意到使用此更新后的微调分类器的准确性有所下降tokenizer
。即使只添加了 10% 的先前缺失的单词,我也能够复制类似的行为。
我的问题
- 我错过了什么吗?
- 函数是否需要屏蔽标记,而不是整个单词,例如
add_tokens
:、、、、'##ah'
'等?如果是,是否有生成此类掩码令牌的程序?'##red'
'##ik'
'##si
任何帮助,将不胜感激。
提前致谢。