作为西澳大利亚大学学生项目的一部分,我正在开发一个神经网络系统来执行SED 拟合。
我通过称为MAGPHYS的 SED 拟合程序创建了一组大约 20,000 次运行。每次运行都有我们感兴趣的 42 个输入值和 32 个输出值(系统有更多输出,但我们不需要它们)
我一直在尝试使用 Keras 神经网络包,以便创建一个网络来学习此功能。
我当前的网络设计使用 4 个完全互连的隐藏层,每层之间有 30 个连接。每一层都使用 TanH 激活函数。我还有一个 42 维输入层和 32 维输出层,都使用 TanH 激活,总共 6 层。
model = Sequential()
loss = 'mse'
optimiser = SGD(lr=0.01, momentum=0.0, decay=0, nesterov=True)
model.add(Dense(output_dim=30, input_dim=42, init='glorot_uniform', activation='tanh'))
for i in range(0, 4):
model.add(Dense(output_dim=30, input_dim=30, init='glorot_uniform', activation='tanh'))
model.add(Dense(output_dim=32, input_dim=30, init='glorot_uniform', activation='tanh'))
model.compile(loss=loss, optimizer=optimiser)
我一直在使用输入和输出数据的最小/最大归一化来压缩 0 到 1 之间的所有值。我正在使用随机梯度下降优化器,并且我已经尝试了各种损失函数,例如均方误差、均值绝对误差、平均绝对百分比误差等。
主要问题是,无论我如何构建我的网络,它只会生成大约所有训练输出值的平均值的输出值。它似乎并没有通过网络实际上正确地学习了该函数,它只是生成了平均值附近的值。更糟糕的是,我尝试过的一些网络设计,尤其是那些使用线性激活函数的网络设计,只会生成输出值的平均值,并且根本不会变化。
示例(对于 32 个输出之一):
Output Correct
9.42609868658 = 9.647
9.26345946681 = 9.487
9.43403506231 = 9.522
9.35685760748 = 9.792
9.20564885211 = 9.287
9.39240577382 = 8.002
请注意所有输出都在 9.2 - 9.4 值附近,即使这些值非常不正确。
考虑到所有这些,是什么导致像我这样的网络产生这些都在平均水平附近的输出?
我可以尝试什么样的事情来解决这个问题并创建某种网络来实际生成正确的输出?