language-model - 使用领域文本预训练 BERT/RoBERTa 语言模型，估计需要多长时间？哪个更快？

翻译自：https://stackoverflow.com/questions/60137162 2020-02-09T13:33:21.890

520 次

1

我想使用域语料库（与情感相关的文本）对 BERT 和 RoBERTa MLM 进行预训练。使用 50k~100k 个单词需要多长时间。由于 RoBERTa 没有接受过预测下一个句子目标的训练，比 BERT 少一个训练目标，并且具有更大的小批量和学习率，我认为 RoBERTa 会快得多？

1 回答 1

4

100k 字太少，无法训练像 BERT 或 RoBERTa 这样的大型模型。RoBERTa 论文的主要主张是 BERT 实际上训练不足。BERT 使用 16 GB 的文本数据进行训练，而 RoBERTa 使用了 160 GB 的纯文本。

对于您描述的特定领域的小型数据，您可以尝试微调现有模型。在这种情况下，我会选择 RoBERTa，因为它似乎经过更好的预训练，没有下一个句子目标（为它预处理数据很麻烦），并且它使用 SentencePiece 进行标记化，这允许无损去标记化。

于 2020-02-10T08:49:19.093 回答