Hugging Facetransformers
库提供了一个GPT2Tokenizer
已经预训练的分词器。但是,我想在使用GPT2Tokenizer
与vocab_size
. 这将用于从头开始训练另一种语言的 GPT 模型。
GPT2Tokenizer
是否可以使用您自己的句子/单词列表重新训练?
尝试运行以下代码
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
tokenizer.pre_tokenizer = Whitespace()
tokenizer.train_from_iterator(my_list_of_words, vocab_size=10000, min_frequency=1,
special_tokens=[
"<s>",
"</s>",
"<unk>",
"<mask>",
"<pad>",
]
)
但它给了我错误
AttributeError:“GPT2Tokenizer”对象没有属性“train_from_iterator”
在这种情况下使用的正确方法是什么?我正在使用transformers
4.4.2 和tokenizers
0.10.1。谢谢!