python - 在神经机器翻译中绑定权重

Question

我想绑定层的权重embedding和next_word解码器的预测层。嵌入维度设置为 300，解码器的隐藏大小设置为 600。NMT 中目标语言的词汇量为 50000，因此嵌入权重维度为50000 x 300，预测下一个单词的线性层的权重为50000 x 600。

那么，我该如何绑定它们呢？在这种情况下，实现重量捆绑的最佳方法是什么？

score 3 · Accepted Answer

权重绑定：在input-to-embedding层和output-to-softmax层之间共享权重矩阵；也就是说，我们只使用一个权重矩阵，而不是使用两个权重矩阵。这样做背后的直觉是为了解决过拟合问题。因此，权重绑定可以被认为是正则化的一种形式。

score 3 · Accepted Answer

在应用共享投影之前，您可以使用线性层将 600 维空间投影到 300。这样，您仍然可以获得优势，即整个嵌入（可能）对于每个 mini-batch 具有非零梯度，但存在略微增加网络容量的风险。

score 0 · Accepted Answer

您是否检查了 kmario23 共享的代码？因为它写道，如果隐藏大小和嵌入大小不相等，则引发异常。所以，这意味着如果你真的想绑定权重，那么你应该将解码器的隐藏大小减少到 300。

另一方面，如果你重新考虑你的想法，你真正想做的是消除重量捆绑。为什么？因为基本上，您想使用需要另一个矩阵的转换。

3 回答 3