machine-learning - 使用神经网络进行连续回归的梯度

Question

我正在尝试实现具有 3 层的回归 NN（1 个输入层、1 个隐藏层和 1 个具有连续结果的输出层）。作为基础，我从coursera.org类中获取了分类 NN，但更改了成本函数和梯度计算以适应回归问题（而不是分类问题）：

我的 nnCostFunction 现在是：

function [J grad] = nnCostFunctionLinear(nn_params, ...
                                   input_layer_size, ...
                                   hidden_layer_size, ...
                                   num_labels, ...
                                   X, y, lambda)

Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), ...
                 hidden_layer_size, (input_layer_size + 1));

Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end), ...
                 num_labels, (hidden_layer_size + 1));

m = size(X, 1);

a1 = X;
a1 = [ones(m, 1) a1];
a2 = a1 * Theta1';
a2 = [ones(m, 1) a2];
a3 = a2 * Theta2';
Y = y;

J = 1/(2*m)*sum(sum((a3 - Y).^2))

th1 = Theta1;
th1(:,1) = 0; %set bias = 0 in reg. formula
th2 = Theta2;
th2(:,1) = 0;

t1 = th1.^2;
t2 = th2.^2;
th = sum(sum(t1)) + sum(sum(t2));
th = lambda * th / (2*m);
J = J + th; %regularization


del_3 = a3 - Y;
t1 = del_3'*a2;
Theta2_grad = 2*(t1)/m + lambda*th2/m;

t1 = del_3 * Theta2;
del_2 = t1 .*  a2;
del_2 = del_2(:,2:end);
t1 = del_2'*a1;
Theta1_grad = 2*(t1)/m + lambda*th1/m;

grad = [Theta1_grad(:) ; Theta2_grad(:)];
end

然后我在fmincg算法中使用这个函数，但在第一次迭代 fmincg 结束它的工作。我认为我的渐变是错误的，但我找不到错误。

有人可以帮忙吗？

score 1 · Accepted Answer

如果我理解正确，您的第一个代码块（如下所示） -

m = size(X, 1);

a1 = X;
a1 = [ones(m, 1) a1];
a2 = a1 * Theta1';
a2 = [ones(m, 1) a2];
a3 = a2 * Theta2';
Y = y;

就是在输出层得到输出a ⁽³⁾。

Ng 关于 NN 的幻灯片具有以下配置来计算 a ⁽³⁾。它与您的代码呈现的不同。

在中间/输出层，您没有执行激活函数g，例如sigmoid函数。

在此处输入图像描述

就没有正则化项的成本函数J而言，Ng 的幻灯片具有以下公式：

在此处输入图像描述

我不明白为什么您可以使用以下方法计算它：

J = 1/(2*m)*sum(sum((a3 - Y).^2))

因为您根本不包括该log功能。

score 1 · Accepted Answer

Mikhaill，我也一直在使用 NN 进行连续回归，并且在某些时候遇到过类似的问题。最好的办法是在运行模型之前针对数值计算测试梯度计算。如果这不正确，fmincg 将无法训练模型。（顺便说一句，我不鼓励你使用数值梯度，因为所涉及的时间要大得多）。

考虑到您从 Ng 的 Coursera 课程中获得了这个想法，我将为您实施一个可能的解决方案，以尝试对 Octave 使用相同的符号。

    % Cost function without regularization.
    J = 1/2/m^2*sum((a3-Y).^2); 

    % In case it´s needed, regularization term is added (i.e. for Training).
    if (reg==true);
 J=J+lambda/2/m*(sum(sum(Theta1(:,2:end).^2))+sum(sum(Theta2(:,2:end).^2)));
    endif;

    % Derivatives are computed for layer 2 and 3.
    d3=(a3.-Y);
    d2=d3*Theta2(:,2:end);

    % Theta grad is computed without regularization.
    Theta1_grad=(d2'*a1)./m;
    Theta2_grad=(d3'*a2)./m;

    % Regularization is added to grad computation.
    Theta1_grad(:,2:end)=Theta1_grad(:,2:end)+(lambda/m).*Theta1(:,2:end);
    Theta2_grad(:,2:end)=Theta2_grad(:,2:end)+(lambda/m).*Theta2(:,2:end);

    % Unroll gradients.
    grad = [Theta1_grad(:) ; Theta2_grad(:)];

请注意，由于您已取出所有 sigmoid 激活，因此导数计算非常简单，并且会简化原始代码。

后续步骤： 1. 检查此代码以了解它是否对您的问题有意义。2.使用梯度检查来测试梯度计算。3. 最后，使用 fmincg 并检查你得到不同的结果。

score 0 · Accepted Answer

尝试包含 sigmoid 函数来计算第二层（隐藏层）值，并避免在计算目标（输出）值时使用 sigmoid。

function [J grad] = nnCostFunction1(nnParams, ...
                                   inputLayerSize, ...
                                   hiddenLayerSize, ...
                                   numLabels, ...
                                   X, y, lambda)

Theta1 = reshape(nnParams(1:hiddenLayerSize * (inputLayerSize + 1)), ...
                 hiddenLayerSize, (inputLayerSize + 1));

Theta2 = reshape(nnParams((1 + (hiddenLayerSize * (inputLayerSize + 1))):end), ...
                 numLabels, (hiddenLayerSize + 1));

Theta1Grad = zeros(size(Theta1));
Theta2Grad = zeros(size(Theta2));

m = size(X,1);

a1 = [ones(m, 1) X]';
z2 = Theta1 * a1;
a2 = sigmoid(z2);
a2 = [ones(1, m); a2];
z3 = Theta2 * a2;
a3 = z3;

Y = y';

r1 = lambda / (2 * m) * sum(sum(Theta1(:, 2:end) .* Theta1(:, 2:end)));
r2 = lambda / (2 * m) * sum(sum(Theta2(:, 2:end) .* Theta2(:, 2:end)));

J = 1 / ( 2 * m ) * (a3 - Y) * (a3 - Y)' + r1 + r2;

delta3 = a3 - Y;
delta2 = (Theta2' * delta3) .* sigmoidGradient([ones(1, m); z2]);
delta2 = delta2(2:end, :);

Theta2Grad = 1 / m * (delta3 * a2');
Theta2Grad(:, 2:end) = Theta2Grad(:, 2:end) + lambda / m * Theta2(:, 2:end);
Theta1Grad = 1 / m * (delta2 * a1');
Theta1Grad(:, 2:end) = Theta1Grad(:, 2:end) + lambda / m * Theta1(:, 2:end);

grad = [Theta1Grad(:) ; Theta2Grad(:)];

end

在将输入传递给 nnCostFunction 之前对其进行规范化。

score 0 · Accepted Answer

根据线性系统 NN 的第 5 周讲义指南，您应该在初始代码中进行以下更改：

删除num_lables或将其设为 1（也在reshape()中）
无需将y转换为逻辑矩阵
对于a2 - 将sigmoid()函数替换为tanh()
在d2计算中 - 将sigmoidGradient(z2)替换为(1-tanh(z2).^2)
从输出层移除 sigmoid ( a3 = z3 )
将非正则部分中的成本函数替换为线性函数：J = (1/(2*m))*sum((a3-y).^2)
创建predictLinear()：使用 predict() 函数作为基础，将 sigmoid 替换为tanh()用于第一层假设，删除第二个 sigmoid 用于第二层假设，删除带有max()函数的行，使用隐藏层的输出作为预测结果的假设
在讲义中的测试用例上验证您的nnCostFunctionLinear()

machine-learning - 使用神经网络进行连续回归的梯度

4 回答 4

Related

Reference