0

您可能会推荐哪种训练方法来训练基于注意力的序列到序列神经机器翻译模型?SGD、Adadelta、Adam 还是更好的?请给点建议,谢谢。

4

1 回答 1

0

使用自适应梯度算法,如 Adam、Adadelta 或 RMSProp。我倾向于使用 Adam,并且总是与剪裁渐变结合使用。

自适应梯度算法对每个参数都有学习率。当您的模型中某些参数可能更稀疏(提高其学习率)或不稀疏(降低其学习率)时,这非常有用。如果您正在使用神经机器翻译之类的东西,那么这种稀疏性就是一个问题。我想亚当的计算成本更高,但结果很好。

于 2017-10-04T22:18:19.517 回答