0

我正在尝试使用 XLM-Roberta 模型对任务进行重新排序。然而,对于英语单语任务,BERT 在评估过程中收敛并返回最佳分数。然而,用 XLM-Roberta 模型替换它甚至没有收敛。我还发现 bert tokenizer 返回一个带有 3 个键(input_ids、token_type_ids 和 attention_masks)的字典。但是,XLM-Roberta 仅返回带有 2 个键(input_ids 和 attention_masks)的 dict。有没有办法将输入文本对分离到 XLM-Roberta 模型。这可能是模型不收敛的原因吗?

4

0 回答 0