5

我正在使用Huggingface Trainer 类文档文本二进制分类任务中的 Longformer 进行微调,并且我正在使用 Tensorboard 监视一些检查点的测量值。

即使 F1 分数和准确率很高,我也对训练损失的波动感到困惑。

我在网上阅读的原因可能是:

  • 学习率太高,但我尝试了 3 个值(1e-4、1e-5 和 1e-6),它们都产生了相同的效果
  • 批量。我正在使用具有 8xK80 GPU 的Sagemaker 笔记本 p2.8xlarge。我可以用来避免CUDA 内存不足错误的每个 GPU 的批量大小是 1。所以总批量大小是8。我的直觉是 8 的 bs 对于包含 57K 示例(每个 epoch 7K 步)的数据集来说太小了。不幸的是,这是我可以使用的最高价值。

这里我报告了F1、accuracy、loss和smoothed loss的趋势。灰色线是 1e-6 的学习率,而粉红色的是 1e-5。

我恢复了我培训的所有信息

  • 批量大小:1 x 8GPU = 8
  • 学习率: 1e-4 , 1e-5 , 1e-6(所有测试都没有改善损失)
  • 型号: Longformer
  • 数据集
    • 训练集57K 个例子
    • 开发集12K 示例
    • 测试集12K 示例

这可能是什么原因?尽管 F1 和准确度结果非常好,这是否可以被视为一个问题?

4

1 回答 1

1

我将首先告诉您波动的原因,然后告诉您可能的解决方法。

原因

当你训练一个网络时,你会计算一个可以减少损失的梯度。为此,您需要反向传播损失。现在,理想情况下,您可以根据数据中的所有样本计算损失,因为您基本上会考虑每个样本,并得出一个可以捕获所有样本的梯度。实际上,由于计算所有样本的梯度的计算复杂性,这是不可能的。

因此,我们使用 small batch_size 作为近似值!这个想法不是考虑所有样本,而是说我基于一些小样本集计算梯度,但作为权衡,我会丢失有关梯度的信息。

经验法则:较小的批大小会产生嘈杂的梯度,但它们会更快地收敛,因为每个 epoch 都有更多的更新。如果您的批量大小为 1,那么每个 epoch 将有 N 次更新。如果是 N,则每个 epoch 将只有 1 次更新。另一方面,较大的批大小提供了更多信息梯度,但它们收敛较慢并增加了计算复杂性。

这就是为什么对于较小的批量,您会观察到不同的损失/波动,因为梯度是嘈杂的。

解决方案:累积梯度

如果出现内存问题,您可以使用累积梯度的概念来对抗波动损失。它在每个 mini-batch 之后计算损失和梯度,但不是更新每个批次的权重,而是等待并累积连续批次的梯度。然后最终根据指定批次数后的累积梯度更新参数。

在文档的此页面上,您可以找到如何应用它:https ://huggingface.co/transformers/v1.2.0/examples.html

于 2021-04-10T12:54:59.940 回答