1

我使用在英语数据上训练的 roberta-base 标记tokenizer = RobertaTokenizerFast.from_pretrained('roberta-base',add_prefix_space=True)器来标记孟加拉语,只是为了看看它的行为。当我尝试对孟加拉语字符进行编码时tokenizer.encode('বা'),我得到[0, 1437, 35861, 11582, 35861, 4726, 2]这意味着它在词汇表中找到了一些与孟加拉语字符匹配的标记,即使是用英语训练也是如此。在进一步探索中,我发现这些都是特殊字符['<s>', 'Ġ', 'à¦', '¬', 'à¦', '¾', '</s>']。我的问题是为什么会发生,当应用于新语言时不应该输出未知标记吗?非常感谢任何帮助

4

1 回答 1

3
于 2021-10-22T08:40:41.010 回答