我正在阅读Theano 文档主页上提供的本教程
我不确定梯度下降部分给出的代码。
我对 for 循环有疑问。
如果将“ param_update ”变量初始化为零。
param_update = theano.shared(param.get_value()*0., broadcastable=param.broadcastable)
然后在剩下的两行中更新它的值。
updates.append((param, param - learning_rate*param_update))
updates.append((param_update, momentum*param_update + (1. - momentum)*T.grad(cost, param)))
为什么我们需要它?
我想我在这里弄错了。你们能帮帮我吗!