我正在尝试使用日语数据集微调多语言 T5 模型。
https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum
但是,这个模型太大而无法加载到我的 GPU 上,并且无法对其进行微调。
我找到了此类问题的解决方案和代码片段; https://github.com/pytorch/fairseq/issues/2120#issuecomment-647429120
思路是这样的;
1.根据finetuning数据得到一个新的词汇表。
2、根据新词汇在旧词汇中找到对应的位置。
3、根据上一步得到的位置得到部分embedding矩阵,那么我们就可以得到一个只与我们的finetuning数据相关的更小的embedding。
4.保持其他参数不变,只用上一步得到的新的embedding矩阵替换embedding矩阵,再次保存模型。
但是,这适用于 fairseq 上的模型。
我是 DL 新手,我不知道为 Huggingface 模型实现这个解决方案。
如何在 Huggingface 模型上执行类似的操作?