machine-learning - 取而代之的是 LBFGS，在稀疏自动编码器中使用梯度下降

Question

在 Andrew Ng 的讲义中，他们使用 LBFGS 并获得了一些隐藏的特性。我可以改用梯度下降并产生相同的隐藏特征吗？其他参数都一样，只是改变优化算法。

因为当我使用 LBFGS 时，我的自动编码器可以产生与讲义中相同的隐藏特征，但是当我使用梯度下降时，隐藏层中的特征消失了，看起来完全随机。

具体来说，为了优化成本函数，我实现了 1）成本函数，2）每个权重和偏差的梯度。并将它们放入 scipy 优化工具箱中以优化成本函数。而这个设置可以给我合理的隐藏功能。

但是当我改为梯度下降时。我试图让“Weight - Gradient of the Weight”和“Bias - Gradient of the Bias”。但由此产生的隐藏特征看起来完全是随机的。

有人可以帮我知道原因吗？谢谢。

score 1 · Accepted Answer

是的，您可以改用 SGD，事实上，它是实践中最流行的选择。L-BFGS-B 不是训练神经网络的典型方法。然而：

1 回答 1