在做的时候,只是一个简单的梯度下降实现(预测一条st线,以样本点作为输入),我用迭代方法非常准确地预测了这条线,但是使用fmin_cg(),精度下降了,首先想到的是增加函数中的 'maxiter' 参数,但令人惊讶的是它根本没有任何影响,(结果与 maxiters = 1 和 1000 相同)。所以我想到了两个问题:1.为什么dre没有影响。fmin_cg() 计算 f 和 fprime 的次数,结果的准确性不应该与其成正比。 2. fmin_cg()(如果提供了 apt fprime)保证返回 f 可能最小的参数。
我的代码:
def gradDesc(theta, data, alpha = None, iterations = None):
X = data[:, 0]
y = data[:, 1]
m = shape(X)[0]
X = c_[ones((m, 1)), X]
y = y.reshape(m, 1)
hypo = X.dot(theta)
grad = zeros((2, 1))
if alpha is not None : #"""iterative method"""
for i in range (0, iterations):
hypo = X.dot(grad)
ausi = X.T.dot(hypo - y)
grad -= alpha / m * ausi
else: #returns derivative of cost(), to use fmin_cg in run()
grad = X.T.dot(hypo.reshape(m, 1) - y)/m
# print(grad)
return grad.flatten()
def run(theta, data ):
result = scipy.optimize.fmin_cg( cost, fprime=gradDesc, x0=theta, \
args = (data, ), maxiter=1, disp=False, full_output=True )
theta = result[0]
minCost = result[1]
return theta, minCost
成本函数:
def cost( theta, data ):
X, y = data[:, 0], data[:, 1]
m = shape(X)[0]
y = y.reshape(m, 1)
X = c_[ones((m, 1)), X]
J = X.dot(theta) - y
# print((J.T.dot(J) / (2*m)) [0, 0])
return (J.T.dot(J) / (2*m)) [0, 0]
完整代码: http: //ideone.com/IbB3Gb(两个版本,只是注释第 4 行和第 5 行需要切换):)