nlp - Transformer 解码器和带有注意力的堆叠 RNN 有多相似？

翻译自：https://stackoverflow.com/questions/67869846 2021-06-07T10:18:41.390

39 次

Transformer 和 RNN 在序列建模中都非常有用。但是，既然RNNs可以堆叠，可以使用attention机制，那么这种不是很像解码器transformer模型（比如GPT）吗？

两者都有多个堆叠的单向层，以处理序列并注意先前的隐藏状态。一个主要区别是 RNN 的隐藏状态取决于之前的隐藏状态，但如果 RNN 使用学习的 Query-Key-Value 矩阵，它们看起来都相似。

有人可以解释是否存在更大的差异，或者在某些情况下它们是否确实相同？

ps：这是关于仅解码器的架构

0 回答 0