我用 numpy 编写了代码(theta,X 是 numpy 数组):
def CostRegFunction(X, y, theta, lambda_):
m = len(X)
# add bias unit
X = np.concatenate((np.ones((m,1)),X),1)
H = np.dot(X,theta)
J = (1 / (2 * m)) * (np.sum([(H[i] - y[i][0])**2 for i in range(len(H))])) + (lambda_ / (2 * m)) * np.sum(theta[1:]**2)
grad_ = list()
grad_.append((1 / m) * np.sum([(H[j] - y[j][0]) for j in range(len(H))]))
for i in range(len(theta)-1):
grad_.append((1 / m) * np.sum([(H[j] - y[j]) * X[j][i+1] for j in range(len(H))]) + (lambda_ / m) * theta[i+1])
return J, grad_
def TrainLinearReg(X, y, theta, lambda_, alpha, iter):
JHistory = list()
for i in range(iter):
J, grad = CostRegFunction(X, y, theta, Lambda_)
JHistory.append(J)
for j in range(len(theta)):
theta[j] = theta[j] - alpha * grad[j]
return theta, JHistory
Theta, JH = TrainLinearReg(X, y, th, Lambda_, 0.01, 50)
但是当我尝试学习 theta 时,这段代码给了我一个非常巨大的 theta 和 J 值的增长。例如第一次迭代 grad = [-15.12452, 598.435436] - 这是正确的。J 是 303.3255 第 2 次迭代 - grad = [10.23566,-3646.2345] J = 7924 依此类推 J 增长得越来越快,但就 LR 而言,它必须更低。
但是如果我使用正规线性方程给我一个很好的 Theta。
该代码有什么问题?