在迁移学习期间,我们采用预训练的网络和一些观察对(输入和标签),并使用这些数据通过反向传播来微调权重。然而,在一次性/少数镜头学习期间,根据这篇论文——“语言模型是少数镜头学习者”(https://arxiv.org/pdf/2005.14165.pdf),“不执行梯度更新”。那么 GPT2 和 GPT3 等模型在 one shot/few shot 学习过程中会发生什么变化?
在迁移学习期间,我们采用预训练的网络和一些观察对(输入和标签),并使用这些数据通过反向传播来微调权重。然而,在一次性/少数镜头学习期间,根据这篇论文——“语言模型是少数镜头学习者”(https://arxiv.org/pdf/2005.14165.pdf),“不执行梯度更新”。那么 GPT2 和 GPT3 等模型在 one shot/few shot 学习过程中会发生什么变化?