来自 PyTorch Seq2Seq 教程,http ://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#attention-decoder
我们看到注意力机制在很大程度上依赖于MAX_LENGTH
参数来确定 的输出维度attn -> attn_softmax -> attn_weights
,即
class AttnDecoderRNN(nn.Module):
def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH):
super(AttnDecoderRNN, self).__init__()
self.hidden_size = hidden_size
self.output_size = output_size
self.dropout_p = dropout_p
self.max_length = max_length
self.embedding = nn.Embedding(self.output_size, self.hidden_size)
self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
self.attn_combine = nn.Linear(self.hidden_size * 2, self.hidden_size)
self.dropout = nn.Dropout(self.dropout_p)
self.gru = nn.GRU(self.hidden_size, self.hidden_size)
self.out = nn.Linear(self.hidden_size, self.output_size)
进一步来说
self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
我知道MAX_LENGTH
变量是减少数字的机制。中需要训练的参数AttentionDecoderRNN
。
如果我们没有MAX_LENGTH
预先确定。我们应该用什么值来初始化attn
层?
会是output_size
吗?如果是这样,那么这将是学习与目标语言中完整词汇相关的注意力。这不是 Bahdanau (2015) 关注论文的真正意图吗?