1

我有一个文本数据集,我对其进行了训练以获取tokernizer,称为“bert_tokenizer”。然后我尝试给出一个新词并把这个词嵌入出来。

from transformers import RobertaConfig

config = RobertaConfig(
    vocab_enter code heresize=tokenizer.get_vocab_size(),
    max_position_embeddings=514,
    num_attention_heads=12,
    num_hidden_layers=6,
    type_vocab_size=1,)

#re-create tokenizer in transformers
from transformers import RobertaTokenizerFast

tokenizer = RobertaTokenizerFast.from_pretrained("bert_tokenizer", output_hidden_states =True, max_len=512)

#initialise model
from transformers import RobertaForMaskedLM

model = RobertaForMaskedLM(config=config)
model.eval()

word = tokenizer.encode('test test')
input = torch.LongTensor(word)
out = model(input_ids=input)

最后一行失败out = model(input_ids=input),立即。错误:内核死了。我的训练数据集非常小,有问题吗?还是其他原因?

我在这里关注教程:https ://github.com/BramVanroy/bert-for-inference/blob/master/introduction-to-bert.ipynb

谢谢你。

4

0 回答 0