0

我是 NLP 的初学者。所以我试图重现最基本的变压器所有你需要的代码。

但是我在做的时候遇到了一个问题。

在 MultiHeadAttention 层中,我打印出“查询、键、值”的形状。但是,打印了“查询”和“键、值”的不同形状。“self-attention”最终找到了与自己的关联,这就是不一样的”。“query、key、value”的形状我​​看不懂。

在此处输入图片描述 “query, key, value”的值来自src,但是为什么值不同? 在此处输入图像描述

在此处输入图像描述

我从这里带来了代码。

https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice/blob/master/code_practices/Attention_is_All_You_Need_Tutorial_(German_English).ipynb

4

0 回答 0