对于凸优化,例如逻辑回归。
例如,我有 100 个训练样本。在mini batch gradient decent
我将批量大小设置为 10。
所以经过 10 次mini batch gradient decent
更新。我可以通过一次gradient decent
更新获得相同的结果吗?
对于非凸优化,如神经网络。
我知道mini batch gradient decent
有时可以避免一些局部最优。但是它们之间有没有固定的关系。
对于凸优化,例如逻辑回归。
例如,我有 100 个训练样本。在mini batch gradient decent
我将批量大小设置为 10。
所以经过 10 次mini batch gradient decent
更新。我可以通过一次gradient decent
更新获得相同的结果吗?
对于非凸优化,如神经网络。
我知道mini batch gradient decent
有时可以避免一些局部最优。但是它们之间有没有固定的关系。
当我们说批量梯度下降时,它使用所有数据更新参数。下面是批量梯度下降的示意图。请注意,批量梯度下降的每次迭代都涉及计算整个训练数据集上损失函数的梯度平均值。图中,-gamma
是学习率的负数。
当批量大小为 1 时,称为随机梯度下降 (GD)。
当您将批量大小设置为 10(我假设总训练数据大小 >>10)时,此方法称为 mini batches stochastic GD,它是 true stochastic GD 和 batch GD(一次使用所有训练数据更新)。小批量比真正的随机梯度下降表现更好,因为当每一步计算的梯度使用更多的训练样本时,我们通常会看到更平滑的收敛。下面是 SGD 的示意图。在这种在线学习设置中,更新的每次迭代都包括z_t
从外部世界中选择一个随机训练实例 ( ) 并更新参数w_t
。
我在这里包括的两个数字来自这篇论文。
来自维基:
使用凸最小化和随机逼近理论分析了随机梯度下降的收敛性。简而言之,当学习率 α 以适当的速率降低时,并且受到相对温和的假设的影响,当目标函数是凸函数或伪凸函数时,随机梯度下降几乎肯定会收敛到全局最小值,否则几乎肯定会收敛到局部最小值。这实际上是罗宾斯-西格蒙德定理的结果。
关于你的问题:
[convex case] Can I get the same result with one times gradient decent updating?
如果“相同结果”的意思是“收敛”到全局最小值,那么是。这在他的论文中得到了 L'eon Bottou 的认可。也就是说,SGD 或小批量 SGD 几乎肯定会收敛到全局最小值。请注意,当我们几乎可以肯定地说:
然而,很明显,任何在线学习算法都可能被非常不可能的示例的一致选择所误导。因此没有希望证明这个算法总是收敛的。最好的可能结果是几乎肯定的收敛,也就是说,算法以概率 1 收敛到解。
对于非凸情况,在同一篇论文(第 5 节)中也证明了随机或小批量几乎肯定会收敛到局部最小值。