c - 使用小批量时如何更新权重？

Question

我正在尝试对我的神经网络实施小批量训练，而不是更新每个训练样本的权重的“在线”随机方法。

我在 C 语言中开发了一个有点新手的神经网络，我可以调整每层中的神经元数量、激活函数等。这是为了帮助我理解神经网络。我已经在 mnist 数据集上训练了网络，但它需要大约 200 个 epoch 才能在训练集上执行 20% 的错误率，这对我来说非常糟糕。我目前正在使用在线随机梯度体面来训练网络。我想尝试的是使用小批量。我理解这样一个概念，即在将错误传播回去之前，我必须从每个训练样本中累积并平均错误。当我想计算必须对权重进行的更改时，我的问题就出现了。为了更好地解释这一点，请考虑一个非常简单的感知器模型。一个输入，一个隐藏层，一个输出。

∂C/∂w1=∂C/∂O*∂O/∂h*∂h/∂w1

如果你做偏导数，你会得到：

∂C/∂w1=（输出预期答案）（w2）（输入）

现在这个公式表明您需要将反向传播的误差乘以输入。对于有意义的在线随机训练，因为每次权重更新使用 1 个输入。对于小批量训练，您使用了许多输入，那么错误乘以哪个输入？我希望你能在这方面帮助我。

void propogateBack(void){


    //calculate 6C/6G
    for (count=0;count<network.outputs;count++){
            network.g_error[count] = derive_cost((training.answer[training_current])-(network.g[count]));
    }



    //calculate 6G/6O
    for (count=0;count<network.outputs;count++){
        network.o_error[count] = derive_activation(network.g[count])*(network.g_error[count]);
    }


    //calculate 6O/6S3
    for (count=0;count<network.h3_neurons;count++){
        network.s3_error[count] = 0;
        for (count2=0;count2<network.outputs;count2++){
            network.s3_error[count] += (network.w4[count2][count])*(network.o_error[count2]);
        }
    }


    //calculate 6S3/6H3
    for (count=0;count<network.h3_neurons;count++){
        network.h3_error[count] = (derive_activation(network.s3[count]))*(network.s3_error[count]);
    }


    //calculate 6H3/6S2
    network.s2_error[count] = = 0;
    for (count=0;count<network.h2_neurons;count++){
        for (count2=0;count2<network.h3_neurons;count2++){ 
            network.s2_error[count] = += (network.w3[count2][count])*(network.h3_error[count2]);
        }
    }



    //calculate 6S2/6H2
    for (count=0;count<network.h2_neurons;count++){
        network.h2_error[count] = (derive_activation(network.s2[count]))*(network.s2_error[count]);
    }


    //calculate 6H2/6S1
    network.s1_error[count] = 0;
    for (count=0;count<network.h1_neurons;count++){
        for (count2=0;count2<network.h2_neurons;count2++){
            buffer += (network.w2[count2][count])*network.h2_error[count2];
        }
    }


    //calculate 6S1/6H1
    for (count=0;count<network.h1_neurons;count++){
        network.h1_error[count] = (derive_activation(network.s1[count]))*(network.s1_error[count]);

    }


}





void updateWeights(void){


    //////////////////w1
    for(count=0;count<network.h1_neurons;count++){
        for(count2=0;count2<network.inputs;count2++){
            network.w1[count][count2] -= learning_rate*(network.h1_error[count]*network.input[count2]);
        }

    }





    //////////////////w2
    for(count=0;count<network.h2_neurons;count++){
        for(count2=0;count2<network.h1_neurons;count2++){
            network.w2[count][count2] -= learning_rate*(network.h2_error[count]*network.s1[count2]);
        }

    }



    //////////////////w3
    for(count=0;count<network.h3_neurons;count++){
        for(count2=0;count2<network.h2_neurons;count2++){
            network.w3[count][count2] -= learning_rate*(network.h3_error[count]*network.s2[count2]);
        }

    }


    //////////////////w4
    for(count=0;count<network.outputs;count++){
        for(count2=0;count2<network.h3_neurons;count2++){
            network.w4[count][count2] -= learning_rate*(network.o_error[count]*network.s3[count2]);
        }

    }
}

我附上的代码是我如何进行在线随机更新。正如您在 updateWeights() 函数中看到的，权重更新基于输入值（取决于输入的样本）和隐藏单元值（也取决于输入的输入样本值）。所以当我有我要传播的小批量平均梯度时，我将如何更新权重？我使用哪些输入值？

score 2 · Accepted Answer

好的，所以我想通了。使用小批量时，您不应在网络输出处累积和平均误差。每个训练示例错误都会像往常一样被传播回来，除了不是更新权重，而是累积对每个权重所做的更改。当您循环通过小批量时，您然后平均累积并相应地更改权重。

我的印象是，在使用小批量时，在循环通过小批量之前，您不必传播任何错误。我错了，您仍然需要这样做，唯一的区别是您只有在遍历完小批量大小后才更新权重。

c - 使用小批量时如何更新权重？

1 回答 1

Related

Reference