tensorflow - BERT FineTuning 训练时间

问问题 2021-11-21T11:30:54.543

14 次

0

我正在尝试使用 M1 芯片上著名的电影评论数据集来微调 Bert 模型。

一个 epoch 的 ETA 估计为 10 小时，以完善所有 66M 参数。

为了减少ETA，我想将前两层设置为trainable=False，所以现在可训练的参数是2K。

即使我放弃了可训练的参数，也没有任何改变，ETA 仍然是 10h。

你认为这是正常的还是我这边有问题？

谢谢

0 回答 0