每个人。我对梯度下降的实现有疑问。我发现了几个优化器,比如 ada_grad、adam、sgd 等等,它们都很完美。但是我正在尝试实现具有固定学习率并作用于每批中的整个示例的天真的梯度方法批量梯度下降。怎么做?等待您的帮助。非常感谢。
问问题
96 次
每个人。我对梯度下降的实现有疑问。我发现了几个优化器,比如 ada_grad、adam、sgd 等等,它们都很完美。但是我正在尝试实现具有固定学习率并作用于每批中的整个示例的天真的梯度方法批量梯度下降。怎么做?等待您的帮助。非常感谢。