0

拥抱脸转换器中,可以使用预训练的 GPT2-XL 语言模型。但我没有找到,它是在哪个数据集上训练的?它与 OpenAI 用于他们论文的训练模型相同吗(在 40GB 数据集上训练webtext)?

4

1 回答 1

0

GPT2-XL 模型是您链接的论文中详述的四种架构中最大的一种(1542M 参数)。它使用与其他三个相同的数据进行训练,即您提到的 WebText。

于 2020-02-11T18:47:29.637 回答