我正在尝试将GPT2用于阿拉伯语文本分类任务,如下所示:
tokenizer = GPT2Tokenizer.from_pretrained(model_path)
model = GPT2ForSequenceClassification.from_pretrained(model_path,
num_labels=len(lab2ind))
但是,当我使用标记器时,它会将阿拉伯字符转换为像这样的符号
'ĠÙĥتÙĬر'