deep-learning - 注意机制可以应用于前馈神经网络等结构吗？

Question

最近学习decoder-encoder网络和attention机制，发现很多论文和博客都在RNN网络上实现attention机制。

如果其他网络可以包含注意力机制，我很感兴趣。例如，编码器是前馈神经网络，解码器是 RNN。没有时间序列的前馈神经网络可以使用注意力机制吗？如果可以的话，请给我一些建议。提前谢谢你！

score 1 · Accepted Answer

一般来说，前馈网络将特征视为独立的；卷积网络专注于相对位置和接近度；RNN 和 LSTM 具有内存限制，并且倾向于向一个方向阅读。

与这些相反，注意力和转换器可以从句子的较远部分获取有关单词的上下文，无论是早于单词出现还是晚于单词出现，以便对信息进行编码以帮助我们理解单词及其在称为句子的系统中的作用.

这里有一个很好的带有注意机制的前馈网络模型：

https://arxiv.org/pdf/1512.08756.pdf

希望有用。

score 0 · Accepted Answer

是的，可以将注意力/自我注意力/多头注意力机制用于其他前馈网络。也可以将注意力机制与基于 CNN 的架构一起使用，即在预测图像的另一部分时应该更多地关注图像的哪一部分。注意背后的邮件理念是在预测特定输出或我们如何关联句子中的单词以解决 NLP 问题时，赋予所有其他输入权重。你可以阅读真正著名的 Transformer 架构，它基于自注意力并且没有 RNN。要了解不同类型的注意力机制的要点，您可以阅读此博客。

deep-learning - 注意机制可以应用于前馈神经网络等结构吗？

2 回答 2

Related

Reference