让我们考虑一下我有一个只有一个输出神经元的神经网络。概述场景:网络获取图像作为输入,并且应该在该图像中找到一个对象。为了简化场景,它应该只输出对象的 x 坐标。
然而,由于对象可以在不同的位置,网络的输出肯定会有一些噪音。此外,图像可能有点模糊和东西。
因此,我认为让网络输出对象位置的高斯分布可能是一个更好的主意。
不幸的是,我正在努力为这个想法建模。我将如何设计输出?如果图像的宽度为 100 像素,则为扁平的 100 维向量?这样网络可以适应这个向量的高斯分布,我只需要定位峰值以获得近似对象的位置?
此外,我无法弄清楚成本函数和教师信号。教师信号会是对象精确 x 坐标上的完美高斯分布吗?那么如何建模成本函数呢?目前我有一个 softmax 交叉熵或只是一个平方误差:网络的输出 <-> 实 x 坐标。
是否有更好的方法来处理这种情况?像更好的分布或任何其他方式让网络在没有任何噪声信息的情况下不输出单个值等等?