我在理解如何bias
工作时遇到问题tensor2tensor
,特别是在multihead_attention
or中dot_product_attention
。我想将它用作我的问题的库。
假设我有一个T
带有维度的输入张量,(batch, max_input_length, hidden_unit)
用于一批句子S
。而且我还有一个张量,sequence_length
它的维度是(batch)
提到每个句子的长度S
。现在我该如何bias
为此准备向量input
?
我想计算这意味着当, ,相同时的bias
向量。self_attention
q
k
v
另一件事,bias
ifq
不同和k
,v
相同会发生什么?这是一种cross_attention
。我认为在这种情况下,我们必须计算 的偏置向量k
。但我不确定。