python - 是什么决定了我的 Python 梯度下降算法是否收敛？

Question

我在 Python 中实现了一个单变量线性回归模型，它使用梯度下降来找到最佳拟合线的截距和斜率（我使用梯度下降而不是直接计算截距和斜率的最佳值，因为我' d 最终喜欢推广到多元回归）。

我使用的数据如下。sales是因变量（以美元为单位）并且temp是自变量（摄氏度）（想想冰淇淋销售与温度，或类似的东西）。

sales   temp
215     14.20
325     16.40
185     11.90
332     15.20
406     18.50
522     22.10
412     19.40
614     25.10
544     23.40
421     18.10
445     22.60
408     17.20

这是我标准化后的数据：

sales        temp 
0.06993007  0.174242424
0.326340326 0.340909091
0           0
0.342657343 0.25
0.515151515 0.5
0.785547786 0.772727273
0.529137529 0.568181818
1           1
0.836829837 0.871212121
0.55011655  0.46969697
0.606060606 0.810606061
0.51981352  0.401515152

我的算法代码：

import numpy as np
import pandas as pd
from scipy import stats

class SLRegression(object):
    def __init__(self, learnrate = .01, tolerance = .000000001, max_iter = 10000):

        # Initialize learnrate, tolerance, and max_iter.
        self.learnrate = learnrate
        self.tolerance = tolerance
        self.max_iter = max_iter

    # Define the gradient descent algorithm.
    def fit(self, data):
        # data   :   array-like, shape = [m_observations, 2_columns] 

        # Initialize local variables.
        converged = False
        m = data.shape[0]

        # Track number of iterations.
        self.iter_ = 0

        # Initialize theta0 and theta1.
        self.theta0_ = 0
        self.theta1_ = 0

        # Compute the cost function.
        J = (1.0/(2.0*m)) * sum([(self.theta0_ + self.theta1_*data[i][1] - data[i][0])**2 for i in range(m)])
        print('J is: ', J)

        # Iterate over each point in data and update theta0 and theta1 on each pass.
        while not converged:
            diftemp0 = (1.0/m) * sum([(self.theta0_ + self.theta1_*data[i][1] - data[i][0]) for i in range(m)])
            diftemp1 = (1.0/m) * sum([(self.theta0_ + self.theta1_*data[i][1] - data[i][0]) * data[i][1] for i in range(m)])

            # Subtract the learnrate * partial derivative from theta0 and theta1.
            temp0 = self.theta0_ - (self.learnrate * diftemp0)
            temp1 = self.theta1_ - (self.learnrate * diftemp1)

            # Update theta0 and theta1.
            self.theta0_ = temp0
            self.theta1_ = temp1

            # Compute the updated cost function, given new theta0 and theta1.
            new_J = (1.0/(2.0*m)) * sum([(self.theta0_ + self.theta1_*data[i][1] - data[i][0])**2 for i in range(m)])
            print('New J is: %s') % (new_J)

            # Test for convergence.
            if abs(J - new_J) <= self.tolerance:
                converged = True
                print('Model converged after %s iterations!') % (self.iter_)

            # Set old cost equal to new cost and update iter.
            J = new_J
            self.iter_ += 1

            # Test whether we have hit max_iter.
            if self.iter_ == self.max_iter:
                converged = True
                print('Maximum iterations have been reached!')

        return self

    def point_forecast(self, x):
        # Given feature value x, returns the regression's predicted value for y.
        return self.theta0_ + self.theta1_ * x


# Run the algorithm on a data set.
if __name__ == '__main__':
    # Load in the .csv file.
    data = np.squeeze(np.array(pd.read_csv('sales_normalized.csv')))

    # Create a regression model with the default learning rate, tolerance, and maximum number of iterations.
    slregression = SLRegression()

    # Call the fit function and pass in the data.
    slregression.fit(data)

    # Print out the results.
    print('After %s iterations, the model converged on Theta0 = %s and Theta1 = %s.') % (slregression.iter_, slregression.theta0_, slregression.theta1_)
    # Compare our model to scipy linregress model.
    slope, intercept, r_value, p_value, slope_std_error = stats.linregress(data[:,1], data[:,0])
    print('Scipy linear regression gives intercept: %s and slope = %s.') % (intercept, slope)

    # Test the model with a point forecast.
    print('As an example, our algorithm gives y = %s given x = .87.') % (slregression.point_forecast(.87)) # Should be about .83.
    print('The true y-value for x = .87 is about .8368.')

我无法准确理解是什么让算法收敛与完全错误的返回值。给定learnrate = .01、tolerance = .0000000001和max_iter = 10000，结合归一化数据，我可以让梯度下降算法收敛。但是，当我使用未归一化的数据时，我可以在没有算法返回的情况下使学习率最小NaN为.005. 这使得成本函数从迭代到迭代的变化下降到大约614，但我不能让它变得更低。

这种算法绝对需要标准化数据吗？如果是，为什么？x-value此外，考虑到算法需要标准化值，将非标准化形式的小说插入点预测的最佳方法是什么？例如，如果我要将这个算法交付给客户，以便他们可以做出自己的预测（我不是，但为了争论..），我不希望他们能够简单地插入在未归一化x-value？

总而言之，玩弄tolerance, max_iter, 并learnrate在大多数情况下给我非收敛的结果。这是正常的，还是我的算法中存在导致此问题的缺陷？

score 1 · Accepted Answer

给定learnrate = .01，tolerance = .0000000001，max_iter = 10000，结合归一化数据，我可以得到梯度下降算法收敛。但是，当我使用未归一化的数据时，我可以使算法不返回 NaN 的最小学习率是 0.005

这是您设置算法的方式所期望的。

数据的归一化使得最佳拟合的 y 截距约为0.0。否则，您可能会从初始猜测中获得数千个单位的 y 截距，并且您必须在真正开始优化部分之前跋涉到那里。

这种算法绝对需要标准化数据吗？如果是，为什么？

不，绝对不是，但如果你不规范化，你应该更聪明地选择一个起点（你从 (m,b) = (0,0) 开始）。如果您不对数据进行规范化，您的学习率也可能太小，并且与您的容差相同。

此外，考虑到算法需要标准化值，将非标准化形式的新 x 值插入点预测的最佳方法是什么？

应用您对原始数据应用的任何转换，以将标准化数据转换为新的 x 值。（规范化代码超出了您所显示的范围）。如果这个测试点落在原始数据的 (minx,maxx) 范围内，一旦转换，它应该落在 0 <= x <= 1 内。一旦你有了这个标准化的测试点，把它插入你的 theta 方程线（请记住，您的 theta 是直线方程的 y 截距形式的 m,b）。

总而言之，在大多数情况下，使用容差、max_iter 和学习率会给我带来不收敛的结果。

对于格式良好的问题，如果您实际上是发散的，则通常意味着您的步长太大。尝试降低它。

如果它在达到最大迭代次数之前根本没有收敛，那可能是一些问题：

你的步长太小了，
你的容忍度太小，
您的最大迭代次数太小，
您的起点选择不当

在您的情况下，使用非标准化数据会导致您的 (0,0) 起点非常遥远（非标准化数据的 (m,b) 约为 (-159, 30) 而 (m, b）您的标准化数据是（0.10,0.79）），因此大多数（如果不是全部）迭代仅用于到达感兴趣的区域。

这样做的问题是，通过增加步长以更快地到达感兴趣的区域也使得它不太可能在到达那里后找到收敛。

考虑到这一点，一些梯度下降算法具有动态步长（或学习率），以便在开始时采用大步，在接近收敛时采用较小的步长。

在整个算法中保留 theta 对的历史记录，然后绘制它们也可能对您有所帮助。您将能够立即看到使用规范化和非规范化输入数据之间的差异。

python - 是什么决定了我的 Python 梯度下降算法是否收敛？

1 回答 1

Related

Reference