1

在迁移学习期间,我们采用预训练的网络和一些观察对(输入和标签),并使用这些数据通过反向传播来微调权重。然而,在一次性/少数镜头学习期间,根据这篇论文——“语言模型是少数镜头学习者”(https://arxiv.org/pdf/2005.14165.pdf),“不执行梯度更新”。那么 GPT2 和 GPT3 等模型在 one shot/few shot 学习过程中会发生什么变化?

4

2 回答 2

1

那么 GPT2 和 GPT3 等模型在 one shot/few shot 学习过程中会发生什么变化?

模型根本没有变化。该模型不会保存地学习任何东西。他们所做的是将“训练示例”作为模型的上下文,模型在此上下文结束时生成输出。图 2.1 (Brown, Tom B. 等人。“语言模型是少样本学习者。”(2020 年)。)显示了微调、零样本学习和少样本学习的输入示例。

如您所见,训练示例是输入的一部分,并且必须在每次进行预测时给出。因此,模型没有发生任何变化。 布朗,汤姆 B.,等人。布朗,汤姆 B.,等人。“语言模型是少数人的学习者。”(2020 年)

于 2021-03-03T09:02:57.600 回答
0

你可能会认为有一些变化,因为模型在几次训练的情况下返回了更好的结果。但是,它是相同的模型,但具有不同的上下文作为输入。GPT-2 和 GPT-3 都是自回归模型,这意味着输出也取决于上下文。更多示例将意味着更清晰的背景,因此获得预期结果的机会增加。

于 2021-08-04T07:04:33.963 回答