0

Hugging Facetransformers库提供了一个GPT2Tokenizer已经预训练的分词器。但是,我想在使用GPT2Tokenizervocab_size. 这将用于从头开始训练另一种语言的 GPT 模型。

GPT2Tokenizer是否可以使用您自己的句子/单词列表重新训练?

尝试运行以下代码

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
tokenizer.pre_tokenizer = Whitespace()
tokenizer.train_from_iterator(my_list_of_words, vocab_size=10000, min_frequency=1, 
    special_tokens=[
        "<s>",
        "</s>",
        "<unk>",
        "<mask>",
        "<pad>",
    ]
)

但它给了我错误

AttributeError:“GPT2Tokenizer”对象没有属性“train_from_iterator”

在这种情况下使用的正确方法是什么?我正在使用transformers4.4.2 和tokenizers0.10.1。谢谢!

4

0 回答 0