我正试图集中精力在新数据集上训练 OpenAI 的语言模型。这里有人有这方面的经验吗?我的想法是用教科书提供 GPT-2 或 3(尽管我没有 API 访问 3),对其进行训练,然后能够用语言模型“讨论”本书的内容。我认为我不必更改任何超参数,我只需要模型中的更多数据。
可能吗??
非常感谢任何(也是概念性的)帮助!
我正试图集中精力在新数据集上训练 OpenAI 的语言模型。这里有人有这方面的经验吗?我的想法是用教科书提供 GPT-2 或 3(尽管我没有 API 访问 3),对其进行训练,然后能够用语言模型“讨论”本书的内容。我认为我不必更改任何超参数,我只需要模型中的更多数据。
可能吗??
非常感谢任何(也是概念性的)帮助!
目前 GPT-3 无法像 GPT-2 或 GPT-Neo / Neo-X 那样进行微调。这是因为模型保存在他们的服务器上,并且必须通过 API 发出请求。Hackernews 的一篇文章称,GPT-3 的微调计划或正在建设中。
话虽如此,OpenAI 的 GPT-3 提供了Answer API,您可以提供上下文文档(最多 200 个文件/1GB)。然后可以将 API 用作与之讨论的一种方式。
编辑:Open AI 最近推出了 Fine Tuning 测试版。 https://beta.openai.com/docs/guides/fine-tuning 因此,通过该链接上的描述来回答问题将是最佳答案。
您绝对可以重新训练 GPT-2。您是否只是为了语言生成目的而对其进行训练,或者您是否有特定的下游任务想要适应 GPT-2?
这两项任务都是可能的,而且难度不大。如果您想训练模型以生成语言,即让它生成特定主题的文本,您可以完全按照在预训练阶段训练的模型来训练模型。这意味着在具有交叉熵损失函数的下一个令牌预测任务上对其进行训练。只要你有一个数据集和不错的计算能力,这并不难实现。
当您说“讨论”本书的内容时,在我看来您正在寻找对话模型/聊天机器人。聊天机器人以不同的方式进行训练,如果您确实在寻找对话模型,您可以查看 DialoGPT 和其他模型。他们可以被训练成为面向任务的对话代理。