我正在尝试使用内部语料库更新预训练的 BERT 模型。我查看了 Huggingface 转换器文档,如下所示,我有点卡住了。我的目标是使用余弦距离计算句子之间的简单相似性,但我需要针对我的特定用例更新预训练模型。
如果您查看下面的代码,它恰好来自 Huggingface 文档。我正在尝试“重新训练”或更新模型,我假设 special_token_1 和 special_token_2 代表我的“内部”数据或语料库中的“新句子”。这个对吗?总之,我喜欢已经预训练的 BERT 模型,但我想更新它或使用另一个内部数据集重新训练它。任何线索将不胜感激。
import tensorflow as tf
import tensorflow_datasets
from transformers import *
model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
SPECIAL_TOKEN_1="dogs are very cute"
SPECIAL_TOKEN_2="dogs are cute but i like cats better and my
brother thinks they are more cute"
tokenizer.add_tokens([SPECIAL_TOKEN_1, SPECIAL_TOKEN_2])
model.resize_token_embeddings(len(tokenizer))
#Train our model
model.train()
model.eval()