在 Andrew Ng 的讲义中,他们使用 LBFGS 并获得了一些隐藏的特性。我可以改用梯度下降并产生相同的隐藏特征吗?其他参数都一样,只是改变优化算法。
因为当我使用 LBFGS 时,我的自动编码器可以产生与讲义中相同的隐藏特征,但是当我使用梯度下降时,隐藏层中的特征消失了,看起来完全随机。
具体来说,为了优化成本函数,我实现了 1)成本函数,2)每个权重和偏差的梯度。并将它们放入 scipy 优化工具箱中以优化成本函数。而这个设置可以给我合理的隐藏功能。
但是当我改为梯度下降时。我试图让“Weight - Gradient of the Weight”和“Bias - Gradient of the Bias”。但由此产生的隐藏特征看起来完全是随机的。
有人可以帮我知道原因吗?谢谢。