向大家问好,
我想设计一个能够基于大量文本数据集生成故事或诗歌的系统,而无需在推理时将文本描述/开始/摘要作为输入提供。
到目前为止,我使用RNN进行了此操作,但如您所知,它们有很多缺陷。我的问题是,当时完成这项任务的最佳方法是什么?我使用注意力机制搜索了可能性,但事实证明它们适合翻译任务。
我知道 GPT-2、Bert、Transformer等,但在生成之前,它们都需要文本描述作为输入,这不是我想要的。我想要一个能够在训练后从头开始生成故事的系统。
非常感谢!
向大家问好,
我想设计一个能够基于大量文本数据集生成故事或诗歌的系统,而无需在推理时将文本描述/开始/摘要作为输入提供。
到目前为止,我使用RNN进行了此操作,但如您所知,它们有很多缺陷。我的问题是,当时完成这项任务的最佳方法是什么?我使用注意力机制搜索了可能性,但事实证明它们适合翻译任务。
我知道 GPT-2、Bert、Transformer等,但在生成之前,它们都需要文本描述作为输入,这不是我想要的。我想要一个能够在训练后从头开始生成故事的系统。
非常感谢!
编辑
所以评论是:I want to generate text from scratch, not starting from a given sentence at inference time. I hope it makes sense.
是的,你可以这样做,这只是在现成模型之上的简单代码操作,无论是 BERT、GPT-2 还是基于 LSTM 的 RNN。
如何?您必须为模型提供随机输入。这种随机输入可以是随机选择的单词或短语,也可以只是一个零向量。
希望能帮助到你。
你在这里混淆了几件事。
您可以使用基于 LSTM 或基于转换器的架构来实现您想要的。
当你说你用 RNN 做的时候,你可能是说你已经尝试过基于 LSTM 的序列到序列模型。
现在,您的问题引起了人们的注意。因此,您可以使用注意力来改进您的 RNN,但这不是必需的条件。但是,如果您使用变压器架构,那么它是内置在变压器模块中的。
GPT-2 只不过是一个基于变压器的模型。它的构建块是一个变压器架构。
BERT 也是另一种基于 Transformer 的架构。
因此,要回答您的问题,您应该并且可以尝试使用基于 LSTM 或基于转换器的架构来实现您想要的。有时这种架构称为 GPT-2,有时称为 BERT,具体取决于它是如何实现的。
我鼓励您阅读 Karpathy 的这本经典著作,如果您理解了它,那么您已经解决了大部分问题: