1

在 GPU 需求和 GPU 内存使用方面,与从头开始训练变压器(BERT、GPT-2)相比,微调预训练的变压器模型是更容易的模型吗?

为了进一步澄清,我已经阅读了如何训练大多数变压器模型,其中一个需要多 GPU 训练。但是,是否可以在单 GPU 上微调其中一些模型?为什么会这样?

是不是因为我们可以用更小的batch,微调的时间不如从头训练多?

4

1 回答 1

0

是的,微调预训练的 Transformer 模型是一种典型的方法。所需的训练时间非常大(每个模型甚至需要数十万小时的体面 GPU 卡),而微调可以在单个 GPU 上完成。原因是微调只需要在预训练模型的输出之上训练几层,以针对给定任务进行定制。因此,微调需要更少的数据和显着更少的训练时间来获得良好的结果。

于 2021-08-19T18:13:39.553 回答