谁能解释一下Hugo Larochelle在本讲座的第 8 分钟提出的收敛测试?
问问题
317 次
1 回答
1
这些条件保证了渐近收敛。在这种情况下,我们应该能够无限次地更新近似解。直观地说,要实现这一点,学习率应该始终大于零。第一个条件意味着或暗示学习率总是大于 0。
另一方面,除了“无限更新”我们的近似解之外,我们还有兴趣更接近最优解。为了实现这一点,学习率应该越来越小。第二个条件意味着 alpha 参数应该单调递减。
这两个条件不仅在 SGD 中是必需的,而且在许多其他随机逼近方法中也是必需的。由于Robbins-Monro 算法,有时它们被称为 Robbins-Monro 条件。
于 2016-09-12T15:31:00.807 回答