1

我对经典梯度下降算法有疑问。最近我想实现一个函数拟合程序,提供观察数据以及给定函数的参数。我使用的方法是梯度下降算法,因为函数的导数可用。假设给定函数参数,我可以根据函数创建模拟数据:

clean;
rng('default');
rng(54321);
low_value = 15;
high_value = 200;
dis_value  = (high_value-low_value)/2;
central_value = (low_value+high_value)/2;
x = 1:55;
central_pixel = (1+length(x))/2;
delta = 3;
len = length(x);
y_true = dis_value*erf((x-central_pixel)./delta)+central_value;
y = y_true + randn(1,len);
figure;plot(x,y,'b*');
hold on; plot(x,y_true,'r');

下图显示了模拟数据(模糊星号点)以及势函数(红色): 在此处输入图像描述 从图中可以看出,在这个例子中有两个参数需要估计,一个是中心点位置 p,另一个是是标准推导增量,函数写为

在此处输入图像描述

其中 A 和 B 可以认为是已知的。那么如果我想使用梯度下降算法,我应该做两件事:一是分别为两个未知参数(p和delta)定义函数的导数,二是调用梯度下降算法。但是,我发现令人困惑的是,在迭代过程中,估计参数之一(delta)并不总是朝着正确的方向发展:

在此处输入图像描述

但是,我确实注意到,目标函数(拟合点与估计函数之间的平方距离之和)总是变得更小: 在此处输入图像描述

那么我的问题是为什么解决方案并不总是朝着正确的方向发展,即使最终它们可以到达正确的位置。谢谢!

4

1 回答 1

2

梯度下降最小化器只是跟随函数在其当前位置的负梯度。您(可能)给出了(p,delta)负梯度增量增加的最小化起始值。对于不同的起始值,您可能会看到不同的行为。

一个想法,虽然。因为erfc( (x-p)/delta )具有 的比率p/delta,所以您的参数有些相互依赖。也就是说,对于较小的 值x或较大的 值p/delta,比率将占主导地位,并且最小化器可能会陷入分子和分母大小不断增加的循环中。

尝试使用修改后的参数:erfc( x/delta - pdratio ), 并拟合到deltapdratio。然后,您可以退出原始p参数:p = pdratio*delta.

于 2013-03-08T21:51:06.907 回答