当使用 RNN(LSTM/GRU)时,我们传递输入序列长度来限制序列的展开。因此,例如,如果实际序列长度为 8 并用 2 个额外标记填充,则将第 8 个标记的隐藏状态复制到第 9 个和第 10 个标记。
如何在填充序列长度上计算注意力分数?第 8 个、第 9 个和第 10 个代币的贡献不相等吗?
当使用 RNN(LSTM/GRU)时,我们传递输入序列长度来限制序列的展开。因此,例如,如果实际序列长度为 8 并用 2 个额外标记填充,则将第 8 个标记的隐藏状态复制到第 9 个和第 10 个标记。
如何在填充序列长度上计算注意力分数?第 8 个、第 9 个和第 10 个代币的贡献不相等吗?