Transformer 和 RNN 在序列建模中都非常有用。但是,既然RNNs可以堆叠,可以使用attention机制,那么这种不是很像解码器transformer模型(比如GPT)吗?
两者都有多个堆叠的单向层,以处理序列并注意先前的隐藏状态。一个主要区别是 RNN 的隐藏状态取决于之前的隐藏状态,但如果 RNN 使用学习的 Query-Key-Value 矩阵,它们看起来都相似。
有人可以解释是否存在更大的差异,或者在某些情况下它们是否确实相同?
ps:这是关于仅解码器的架构
Transformer 和 RNN 在序列建模中都非常有用。但是,既然RNNs可以堆叠,可以使用attention机制,那么这种不是很像解码器transformer模型(比如GPT)吗?
两者都有多个堆叠的单向层,以处理序列并注意先前的隐藏状态。一个主要区别是 RNN 的隐藏状态取决于之前的隐藏状态,但如果 RNN 使用学习的 Query-Key-Value 矩阵,它们看起来都相似。
有人可以解释是否存在更大的差异,或者在某些情况下它们是否确实相同?
ps:这是关于仅解码器的架构