我喜欢从优秀的“Huggingface”库中尝试不同的变形金刚。但是,当我尝试使用任何类型的“roberta”/“xlm”转换器时,我会收到以下错误消息。我的 Python 代码似乎适用于 bert-base 和 bert-large 模型,所以我想了解我可能需要如何调整它以使用这些变体。
例外:WordPiece 错误:词汇表中缺少 [UNK] 标记
我的代码在预训练的 BERT 模型之上添加了一个微调层。我之前使用过的所有 bert 模型对我正在分析的英语文本数据进行标记和处理都没有问题。我的 Python 知识正在增长,但我会将其描述为扎实的基础知识,但在此级别之上是零散的。请帮助我更好地理解这里的问题,以便我可以进行必要的调整,谢谢 - 马克
这是完整的错误消息,如果有帮助的话。
---------------------------------------------------------------------------
Exception Traceback (most recent call last)
<ipython-input-61-d42d72a742f6> in <module>()
5 pad_to_max_length=True,
6 truncation=True,
----> 7 return_token_type_ids=False
8 )
9
2 frames
/usr/local/lib/python3.6/dist-packages/tokenizers/implementations/base_tokenizer.py in encode_batch(self, inputs, is_pretokenized, add_special_tokens)
247 raise ValueError("encode_batch: `inputs` can't be `None`")
248
--> 249 return self._tokenizer.encode_batch(inputs, is_pretokenized, add_special_tokens)
250
251 def decode(self, ids: List[int], skip_special_tokens: Optional[bool] = True) -> str:
Exception: WordPiece error: Missing [UNK] token from the vocabulary