我有一个文本数据集,我对其进行了训练以获取tokernizer,称为“bert_tokenizer”。然后我尝试给出一个新词并把这个词嵌入出来。
from transformers import RobertaConfig
config = RobertaConfig(
vocab_enter code heresize=tokenizer.get_vocab_size(),
max_position_embeddings=514,
num_attention_heads=12,
num_hidden_layers=6,
type_vocab_size=1,)
#re-create tokenizer in transformers
from transformers import RobertaTokenizerFast
tokenizer = RobertaTokenizerFast.from_pretrained("bert_tokenizer", output_hidden_states =True, max_len=512)
#initialise model
from transformers import RobertaForMaskedLM
model = RobertaForMaskedLM(config=config)
model.eval()
word = tokenizer.encode('test test')
input = torch.LongTensor(word)
out = model(input_ids=input)
最后一行失败out = model(input_ids=input)
,立即。错误:内核死了。我的训练数据集非常小,有问题吗?还是其他原因?
我在这里关注教程:https ://github.com/BramVanroy/bert-for-inference/blob/master/introduction-to-bert.ipynb
谢谢你。