一直在研究rowanz的grover模型。我能够在 4 个批量大小上训练 grover 的大型模型,但是在微调大型模型时出现内存分配错误,然后我将批量大小减少到 1,训练现在正在进行中。我还尝试将 max_seq_length 减少到 512 并将 batch_size 设置为 4 并且它正在工作。
我的问题是哪个参数对减少批量大小或减少 max_seq_length 的性能影响更大?
我还可以设置 max_seq_length 的值,而不是 2 的幂,比如 512 和 1024 之间的某个值吗?