2

在动态优化课程网页(https://apmonitor.com/do/index.php/Main/TCLabB)的 TCLab B 的 ANN 示例中,是否在脚本中指定了每一层的偏置节点?请让我知道哪些线代表偏置节点。如果不需要,请说明原因。谢谢你。

# -------------------------------------
# build neural network
# -------------------------------------

nin = 2  # inputs
n1 = 2   # hidden layer 1 (linear)
n2 = 2   # hidden layer 2 (nonlinear)
n3 = 2   # hidden layer 3 (linear)
nout = 2 # outputs

# Initialize gekko models
train = GEKKO() 
dyn   = GEKKO()
model = [train,dyn]

for m in model:
    # use APOPT solver
    m.options.SOLVER = 1

    # input(s)
    m.inpt = [m.Param() for i in range(nin)]

    # layer 1 (linear)
    m.w1 = m.Array(m.FV, (nout,nin,n1))
    m.l1 = [[m.Intermediate(sum([m.w1[k,j,i]*m.inpt[j] \
            for j in range(nin)])) for i in range(n1)] \
            for k in range(nout)]

    # layer 2 (tanh)
    m.w2 = m.Array(m.FV, (nout,n1,n2))
    m.l2 = [[m.Intermediate(sum([m.tanh(m.w2[k,j,i]*m.l1[k][j]) \
            for j in range(n1)])) for i in range(n2)] \
            for k in range(nout)]

    # layer 3 (linear)
    m.w3 = m.Array(m.FV, (nout,n2,n3))
    m.l3 = [[m.Intermediate(sum([m.w3[k,j,i]*m.l2[k][j] \
            for j in range(n2)])) for i in range(n3)] \
            for k in range(nout)]

    # outputs
    m.outpt = [m.CV() for i in range(nout)]
    m.Equations([m.outpt[k]==sum([m.l3[k][i] for i in range(n3)]) \
                 for k in range(nout)])

    # flatten matrices
    m.w1 = m.w1.flatten()
    m.w2 = m.w2.flatten()
    m.w3 = m.w3.flatten()
4

1 回答 1

2

以下是您可以考虑添加偏置节点的一些原因:

  • 偏差就像线性回归中的截距项,可用于调整输入或内部节点以实现更好的拟合。
  • 偏差项是求解器可以用来最小化损失函数(目标函数)的额外参数。

您可能不想添加偏置节点的一些原因:

  • 它们创建了额外的参数,这些参数可能会由于过度参数化和过度拟合而产生额外的外推问题
  • 偏差可以将输入或内部节点向上或向下移动到求解器迭代时梯度消失的点。这导致模型的某些部分可能不再有助于区分预测。
  • 深度学习网络可能能够通过调整平均输出来弥补偏差项的缺失。

它还可以帮助将输入和输出缩放到 0 和 1 之间,特别是如果输入的零等于输出的零。通过这种转换,您已经对变量进行了缩放,以使偏差项为零,并且您正在尝试使用激活函数对从零开始的变化进行建模。此方法用于动态建模,您可以将方程转换为“偏差变量”形式,其中标称或稳态值设置为零。方程跟踪与标称零起点的偏差。

以下是关于讨论 1讨论 2的一些额外建议。

您可以将偏差项添加到您的 Gekko 模型中,如18 个 Gekko 教程中的示例 7所示。偏置项是 w2b。同样,您也可以为您提到的问题添加它,尽管您可能只想在第一(输入)层尝试它作为 w1a 和 w1b。

for m in model:
    # use APOPT solver
    m.options.SOLVER = 1

    # input(s)
    m.inpt = [m.Param() for i in range(nin)]

    # layer 1 (linear)
    m.w1a = m.Array(m.FV, (nout,nin,n1))
    m.w1b = m.Array(m.FV, (nout,nin,n1))
    m.l1 = [[m.Intermediate(sum([m.w1a[k,j,i]*m.inpt[j] + m.w1b[k,j,i] \
            for j in range(nin)])) for i in range(n1)] \
            for k in range(nout)]

    # layer 2 (tanh)
    m.w2a = m.Array(m.FV, (nout,n1,n2))
    m.w2b = m.Array(m.FV, (nout,n1,n2))
    m.l2 = [[m.Intermediate(sum([m.tanh(m.w2a[k,j,i]*m.l1[k][j]) + m.w2b[k,j,i] \
            for j in range(n1)])) for i in range(n2)] \
            for k in range(nout)]

    # layer 3 (linear)
    m.w3a = m.Array(m.FV, (nout,n2,n3))
    m.w3b = m.Array(m.FV, (nout,n2,n3))
    m.l3 = [[m.Intermediate(sum([m.w3a[k,j,i]*m.l2[k][j] + m.w3b[k,j,i] \
            for j in range(n2)])) for i in range(n3)] \
            for k in range(nout)]

    # outputs
    m.outpt = [m.CV() for i in range(nout)]
    m.Equations([m.outpt[k]==sum([m.l3[k][i] for i in range(n3)]) \
                 for k in range(nout)])

    # flatten matrices
    m.w1a = m.w1.flatten()
    m.w2a = m.w2.flatten()
    m.w3a = m.w3.flatten()
    m.w1b = m.w1.flatten()
    m.w2b = m.w2.flatten()
    m.w3b = m.w3.flatten()
于 2019-04-22T20:30:39.027 回答