0

我正在使用adam_sgd 优化器来训练神经网络,但我无法将函数中的参数与 Adam 论文中报告的参数关联起来。更具体地说,参数 alpha、beta1、beta2 和 epsilon 如何与 Adam 的 CNTK 实现中的学习率和动量相关?

4

1 回答 1

0
  • Alpha 是 learning_rate
  • Beta1 是动量参数
  • Beta2是variance_momentum参数
于 2016-12-23T18:04:22.403 回答