我正在尝试使用 M1 芯片上著名的电影评论数据集来微调 Bert 模型。
一个 epoch 的 ETA 估计为 10 小时,以完善所有 66M 参数。
为了减少ETA,我想将前两层设置为trainable=False
,所以现在可训练的参数是2K。
即使我放弃了可训练的参数,也没有任何改变,ETA 仍然是 10h。
你认为这是正常的还是我这边有问题?
谢谢
我正在尝试使用 M1 芯片上著名的电影评论数据集来微调 Bert 模型。
一个 epoch 的 ETA 估计为 10 小时,以完善所有 66M 参数。
为了减少ETA,我想将前两层设置为trainable=False
,所以现在可训练的参数是2K。
即使我放弃了可训练的参数,也没有任何改变,ETA 仍然是 10h。
你认为这是正常的还是我这边有问题?
谢谢