python - 如何用自己的话训练拥抱脸 GPT2Tokenizer？

问问题 2021-03-27T04:47:54.327

590 次

Hugging Facetransformers库提供了一个GPT2Tokenizer已经预训练的分词器。但是，我想在使用GPT2Tokenizer与vocab_size. 这将用于从头开始训练另一种语言的 GPT 模型。

GPT2Tokenizer是否可以使用您自己的句子/单词列表重新训练？

尝试运行以下代码

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
tokenizer.pre_tokenizer = Whitespace()
tokenizer.train_from_iterator(my_list_of_words, vocab_size=10000, min_frequency=1, 
    special_tokens=[
        "<s>",
        "</s>",
        "<unk>",
        "<mask>",
        "<pad>",
    ]
)

但它给了我错误

AttributeError：“GPT2Tokenizer”对象没有属性“train_from_iterator”

在这种情况下使用的正确方法是什么？我正在使用transformers4.4.2 和tokenizers0.10.1。谢谢！

python - 如何用自己的话训练拥抱脸 GPT2Tokenizer？

0 回答 0

Related

Reference