我理解我们通常不使用二阶导数信息的原因是,Hessian 可能非常大,层数和权重更多,导致计算成本高,因此首选无 Hessian 方法。我的问题是,文献中提到的计算费用是否是假设二阶导数是以数值方式计算的结果?因此,如果取而代之的是,被评估的目标函数产生了简洁的解析二阶导数,那么即使有大量隐藏层,基于牛顿的方法是否可以在计算上易于处理以估计 ANN 参数?还是纯粹是 Hessian 的大小 - 以及为更新算法(!)反转它的需要/费用 - 这是使用基于梯度的方法的决定因素?
问问题
77 次
1 回答
0
为了使用二阶优化方法,您应该计算Hessian 矩阵的逆矩阵。这样做有两个问题:
Hessian 有 O(N 2 ) 个参数,这使得计算变得更加困难(在内存和时间复杂度方面)。即使您在 O(1) 时间内计算每一个(也就是说,您使用解析公式计算导数),您仍然需要计算它们的二次量。
矩阵求逆是相当慢的操作,它比仅计算 Hessian 的所有值需要更多的时间(O(N 3在高斯消除的情况下),例如,在 的情况下。
于 2015-03-05T20:24:23.220 回答