我想在我的 BPE 分词器中添加新词。我知道符号 Ġ 表示新标记的结束,并且预训练标记器的词汇中的大多数标记都以 Ġ 开头。假设我想将Salah这个词添加到我的标记器中。我尝试添加Salah令牌和ĠSalah: tokenizer.add_tokens(['Salah', 'ĠSalah']) # 他们分别得到 50265 和 50266 值。但是,当我对出现Salah的句子进行标记时,标记器将永远不会返回第二个数字(使用.tokenize
nor时也不会.encode
),例如:
tokenizer.tokenize('I love Salah and salad')
返回['I', 'Ġlove', 'Salah', 'Ġand', 'Ġsalad']
。问题是:我应该使用符号Ġ
添加新令牌或令牌生成器时会自己做吗?或者,可能必须手动指定?提前致谢!
问问题
630 次