multilingual - 如何削减 Huggingface 上共享的预训练多语言模型？

问问题 2021-11-10T10:20:39.360

92 次

0

我正在尝试使用日语数据集微调多语言 T5 模型。 https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum
但是，这个模型太大而无法加载到我的 GPU 上，并且无法对其进行微调。

我找到了此类问题的解决方案和代码片段； https://github.com/pytorch/fairseq/issues/2120#issuecomment-647429120

思路是这样的；

1.根据finetuning数据得到一个新的词汇表。

2、根据新词汇在旧词汇中找到对应的位置。

3、根据上一步得到的位置得到部分embedding矩阵，那么我们就可以得到一个只与我们的finetuning数据相关的更小的embedding。

4.保持其他参数不变，只用上一步得到的新的embedding矩阵替换embedding矩阵，再次保存模型。

但是，这适用于 fairseq 上的模型。
我是 DL 新手，我不知道为 Huggingface 模型实现这个解决方案。
如何在 Huggingface 模型上执行类似的操作？

0 回答 0