nlp - 我的检查点阿尔伯特文件在训练时没有改变

Question

我为问答任务训练 Albert 模型。我有 200,000 个问答对，我使用保存的 2gb 检查点文件。我在我的 GPU GeForce 2070 RTX 上对其进行了训练，每次 1000 步以保存检查点，在训练期间检查点model.ckpt-96000.data-00000-of-00001文件只是保持大小135MB而不增加。这是一个问题吗？

我不明白为什么对于像 1500 个问答对这样的小得多的数据集，它还会生成 135 MB 的检查点文件。它还没有停止训练，但是模型是否有可能通过这次训练得到改进？

score 1 · Accepted Answer

在训练模型时，您可以将权重存储在文件集合中，这些文件的格式设置为checkpoints仅包含以二进制格式训练的权重。

特别是，检查点包含：

一个或多个包含我们模型权重的块
指示哪些权重存储在特定块中的索引文件

所以检查点文件的大小总是相同的事实取决于使用的模型总是相同的事实。因此模型参数的数量始终相同，因此您要保存的权重大小始终相同。而后缀data-00000-of-00001表示您正在单台机器上训练模型。

在我看来，数据集的大小与它无关。

nlp - 我的检查点阿尔伯特文件在训练时没有改变

1 回答 1

Related

Reference