我正在尝试使用 Hugginface 数据集使用本教程使用转换器进行语音识别,epochs=30,steps=400,train_batch_size=16。训练损失、验证损失和 WER 减少,然后增加:
Step TrainingLoss ValidationLoss Wer
400 4.171600 1.145224 0.914795
800 0.812200 0.489049 0.468949
1200 0.581000 0.625888 0.559847
1600 0.930700 1.078658 0.681997
2000 1.681100 2.083352 0.971417
2400 2.344900 2.128186 0.969882
2800 2.528900 2.261873 0.970472
3200 2.503300 2.261875 0.970472
3600 2.499400 2.261875 0.970472
4000 2.512800 2.261875 0.970472
4400 2.506000 2.261875 0.970472
4800 2.523700 2.261875 0.970472
5200 2.517800 2.261875 0.970472
5600 2.517600 2.261875 0.970472
6000 2.522000 2.261875 0.970472
....
这是因为我的时代太多了吗?过拟合?还是与steps/batch_size有关?还是学习率?