我是 NLP 的初学者。所以我试图重现最基本的变压器所有你需要的代码。
但是我在做的时候遇到了一个问题。
在 MultiHeadAttention 层中,我打印出“查询、键、值”的形状。但是,打印了“查询”和“键、值”的不同形状。“self-attention”最终找到了与自己的关联,这就是不一样的”。“query、key、value”的形状我看不懂。
在此处输入图片描述 “query, key, value”的值来自src,但是为什么值不同? 在此处输入图像描述
我从这里带来了代码。