deep-learning - 文本生成的深度学习方法 (PyTorch)

Question

向大家问好，

我想设计一个能够基于大量文本数据集生成故事或诗歌的系统，而无需在推理时将文本描述/开始/摘要作为输入提供。

到目前为止，我使用RNN进行了此操作，但如您所知，它们有很多缺陷。我的问题是，当时完成这项任务的最佳方法是什么？我使用注意力机制搜索了可能性，但事实证明它们适合翻译任务。

我知道 GPT-2、Bert、Transformer等，但在生成之前，它们都需要文本描述作为输入，这不是我想要的。我想要一个能够在训练后从头开始生成故事的系统。

非常感谢！

score 0 · Accepted Answer

编辑

所以评论是：I want to generate text from scratch, not starting from a given sentence at inference time. I hope it makes sense.

是的，你可以这样做，这只是在现成模型之上的简单代码操作，无论是 BERT、GPT-2 还是基于 LSTM 的 RNN。

如何？您必须为模型提供随机输入。这种随机输入可以是随机选择的单词或短语，也可以只是一个零向量。

希望能帮助到你。

你在这里混淆了几件事。

您可以使用基于 LSTM 或基于转换器的架构来实现您想要的。

当你说你用 RNN 做的时候，你可能是说你已经尝试过基于 LSTM 的序列到序列模型。

现在，您的问题引起了人们的注意。因此，您可以使用注意力来改进您的 RNN，但这不是必需的条件。但是，如果您使用变压器架构，那么它是内置在变压器模块中的。

GPT-2 只不过是一个基于变压器的模型。它的构建块是一个变压器架构。

BERT 也是另一种基于 Transformer 的架构。

因此，要回答您的问题，您应该并且可以尝试使用基于 LSTM 或基于转换器的架构来实现您想要的。有时这种架构称为 GPT-2，有时称为 BERT，具体取决于它是如何实现的。

我鼓励您阅读 Karpathy 的这本经典著作，如果您理解了它，那么您已经解决了大部分问题：

1 回答 1