1

我在理解如何bias工作时遇到问题tensor2tensor,特别是在multihead_attentionor中dot_product_attention。我想将它用作我的问题的库。

假设我有一个T带有维度的输入张量,(batch, max_input_length, hidden_unit)用于一批句子S。而且我还有一个张量,sequence_length它的维度是(batch)提到每个句子的长度S。现在我该如何bias为此准备向量input

我想计算这意味着当, ,相同时的bias向量。self_attentionqkv

另一件事,biasifq不同和k,v相同会发生什么?这是一种cross_attention。我认为在这种情况下,我们必须计算 的偏置向量k。但我不确定。

4

0 回答 0