Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我是 NLP 的初学者。所以我试图重现最基本的变压器所有你需要的代码。
但是我在做的时候遇到了一个问题。
在 MultiHeadAttention 层中,我打印出“查询、键、值”的形状。但是,打印了“查询”和“键、值”的不同形状。“self-attention”最终找到了与自己的关联,这就是不一样的”。“query、key、value”的形状我看不懂。
在此处输入图片描述 “query, key, value”的值来自src,但是为什么值不同? 在此处输入图像描述
在此处输入图像描述
我从这里带来了代码。
https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice/blob/master/code_practices/Attention_is_All_You_Need_Tutorial_(German_English).ipynb