0

我正在尝试通过包含 6 亿个参数(最初在 2.5 亿个数据点上训练)和 2000 个数据点的 facebook 重新训练变压器模型。我想知道这样做是否是个好主意?在用 2k 数据点重新训练如此大的模型时,我应该记住哪些事情?

4

0 回答 0