在 GPU 需求和 GPU 内存使用方面,与从头开始训练变压器(BERT、GPT-2)相比,微调预训练的变压器模型是更容易的模型吗?
为了进一步澄清,我已经阅读了如何训练大多数变压器模型,其中一个需要多 GPU 训练。但是,是否可以在单 GPU 上微调其中一些模型?为什么会这样?
是不是因为我们可以用更小的batch,微调的时间不如从头训练多?
在 GPU 需求和 GPU 内存使用方面,与从头开始训练变压器(BERT、GPT-2)相比,微调预训练的变压器模型是更容易的模型吗?
为了进一步澄清,我已经阅读了如何训练大多数变压器模型,其中一个需要多 GPU 训练。但是,是否可以在单 GPU 上微调其中一些模型?为什么会这样?
是不是因为我们可以用更小的batch,微调的时间不如从头训练多?