1

我在我的数据集中(大约)Bert base uncased用作意图分类的嵌入和简单的余弦相似度。400 classes and 2200 utterances, train:test=80:20基本 BERT 模型在测试数据集中执行 60% 的准确率,但不同时期的微调给了我非常不可预测的结果。

这是我的设置:

max_seq_length=150
train_batch_size=16
learning_rate=2e-5

这些是我的实验:

base model   accuracy=0.61
epochs=2.0   accuracy=0.30
epochs=5.0   accuracy=0.26
epochs=10.0  accuracy=0.15
epochs=50.0  accuracy=0.20
epochs=75.0  accuracy=0.92
epochs=100.0 accuracy=0.93

我不明白它的行为是这样的。我希望任何微调时期都不应该比基本模型差,因为我在同一个数据集上进行了微调和推断。有什么我误解或应该关心的吗?

4

1 回答 1

2

好吧,通常你不能一次输入训练集中的所有数据(我假设你有一个巨大的数据集,你必须使用小批量)。因此,您将其拆分为小批量。因此,显示的准确性受到最后一个 mini-batch 或 epoch 的最后一个训练步骤的强烈影响。

于 2019-06-25T08:28:12.053 回答