0

我正在尝试使用 M1 芯片上著名的电影评论数据集来微调 Bert 模型。

一个 epoch 的 ETA 估计为 10 小时,以完善所有 66M 参数。

为了减少ETA,我想将前两层设置为trainable=False,所以现在可训练的参数是2K。

即使我放弃了可训练的参数,也没有任何改变,ETA 仍然是 10h。

你认为这是正常的还是我这边有问题?

谢谢

4

0 回答 0