tensorflow - 如何在 tensor2tensor 中准备 `bias` 向量？

问问题 2019-02-19T13:52:00.547

44 次

我在理解如何bias工作时遇到问题tensor2tensor，特别是在multihead_attentionor中dot_product_attention。我想将它用作我的问题的库。

假设我有一个T带有维度的输入张量，(batch, max_input_length, hidden_unit)用于一批句子S。而且我还有一个张量，sequence_length它的维度是(batch)提到每个句子的长度S。现在我该如何bias为此准备向量input？

我想计算这意味着当, ,相同时的bias向量。self_attentionqkv

另一件事，biasifq不同和k,v相同会发生什么？这是一种cross_attention。我认为在这种情况下，我们必须计算的偏置向量k。但我不确定。

0 回答 0