pytorch - GPT2-XL预训练模型的训练数据大小

Question

在拥抱脸转换器中，可以使用预训练的 GPT2-XL 语言模型。但我没有找到，它是在哪个数据集上训练的？它与 OpenAI 用于他们论文的训练模型相同吗（在 40GB 数据集上训练webtext）？

score 0 · Accepted Answer

GPT2-XL 模型是您链接的论文中详述的四种架构中最大的一种（1542M 参数）。它使用与其他三个相同的数据进行训练，即您提到的 WebText。

1 回答 1