我正在使用adam_sgd 优化器来训练神经网络,但我无法将函数中的参数与 Adam 论文中报告的参数关联起来。更具体地说,参数 alpha、beta1、beta2 和 epsilon 如何与 Adam 的 CNTK 实现中的学习率和动量相关?
问问题
583 次
我正在使用adam_sgd 优化器来训练神经网络,但我无法将函数中的参数与 Adam 论文中报告的参数关联起来。更具体地说,参数 alpha、beta1、beta2 和 epsilon 如何与 Adam 的 CNTK 实现中的学习率和动量相关?