“self-attention”的相关标签问题

0 投票

1 回答

48 浏览

pytorch - 将图像馈送到堆叠的 resnet 块以创建嵌入

您是否有任何引用如下图的代码示例或论文？

我想知道为什么我们要堆叠多个 resnet 块，而不是像更传统的架构中的多个卷积块？任何代码示例或引用一个都将非常有帮助。

另外，我怎样才能将它转移到像下面这样可以包含每个 resnet 块的自我注意模块的东西？

2021-08-24T04:10:35.230

0 投票

0 回答

39 浏览

nlp - 如何在 selfAttention 类中使用多头选项？

我正在玩trax库中的自注意力模型。

当我设置时n_heads=1，一切正常。但是当我设置时n_heads=2，我的代码会中断。

我只使用输入激活和一个 SelfAttention 层。

这是一个最小的代码：

但我有一个错误：

我做错了什么？

nlp transformer attention-model trax self-attention

2021-08-30T23:30:13.203

0 投票

0 回答

501 浏览

deep-learning - 为什么注意力层需要“value”、“key”和“query”？

我正在学习有关“变压器”模型的基本思想。根据我看到的论文和教程，“注意力层”使用神经网络来获取“值”、“键”和“查询”。

这是我从网上学到的注意力层。

我很困惑的一件事是为什么我们需要“键”、“值”和“查询”？我可以只使用其中一个吗？或者我可以设置除这三个之外的更多值吗？看起来这三个值只是由三个单层神经网络转换而成。

deep-learning attention-model self-attention

2021-10-11T12:45:12.447

0 投票

0 回答

37 浏览

matrix-multiplication - 关于 Inference 期间 Transformer 解码器注意力层中使用的标记的问题

我正在查看解码器期间使用的形状（self-attention 和 enc-dec-attention 块），并了解解码器在训练期间的运行方式与基于此链接和原始Attention 论文的推理期间的运行方式有所不同

在推理中，它使用在该时间步（例如第时间步）之前生成的所有先前标记k，如下图所示并在此链接中进行了解释。

问题：

然而，当我查看解码器自注意力中 QKV 投影的实际形状，并将解码器自注意力输出馈送到“enc-dec-attention”的 Q 矩阵时，我只看到输出中的 1 个标记是用过的。

我很困惑解码器的自注意力和 enc-dec-attention 中所有矩阵的形状如何在推理过程中与解码器的可变输入长度相匹配。我查看了几个在线材料，但找不到答案。我只看到解码器的自我注意（不是 enc-dec-attention）中的 BGemms 使用可变形状，直到所有前面的k步骤，但所有其他 Gemms 都是固定大小的。

这怎么可能？是否只有 1 个令牌（来自解码器输出的最后一个）用于自我注意中的 qkv matmuls 和 enc-dec-attention 中的 Q-matmul（这是我在运行模型时看到的）？
有人可以详细说明一下 QKV 在 self-attention 中的所有这些形状和在 enc-dec-attention 中的 Q 与解码器输入长度在每个时间步的不同之处如何匹配？**

另一个显示解码器中的自我注意和 enc-dec-attention 的图表：