4

让我们考虑一下我有一个只有一个输出神经元的神经网络。概述场景:网络获取图像作为输入,并且应该在该图像中找到一个对象。为了简化场景,它应该只输出对象的 x 坐标。

然而,由于对象可以在不同的位置,网络的输出肯定会有一些噪音。此外,图像可能有点模糊和东西。

因此,我认为让网络输出对象位置的高斯分布可能是一个更好的主意。

不幸的是,我正在努力为这个想法建模。我将如何设计输出?如果图像的宽度为 100 像素,则为扁平的 100 维向量?这样网络可以适应这个向量的高斯分布,我只需要定位峰值以获得近似对象的位置?

此外,我无法弄清楚成本函数和教师信号。教师信号会是对象精确 x 坐标上的完美高斯分布吗?那么如何建模成本函数呢?目前我有一个 softmax 交叉熵或只是一个平方误差:网络的输出 <-> 实 x 坐标。

是否有更好的方法来处理这种情况?像更好的分布或任何其他方式让网络在没有任何噪声信息的情况下不输出单个值等等?

4

1 回答 1

1

听起来您真正需要的是卷积网络

当目标对象位于网络感受野的中心时,您可以训练网络识别目标对象。然后,您可以创建一个移动窗口,在每个步骤中将该窗口下的较大图像部分馈送到网络中。如果您为窗口的每个 (x,y) 位置跟踪训练网络的输出,则窗口的某些位置将产生比其他位置更好的匹配。一旦你覆盖了整个图像,你就可以选择网络输出最大的位置作为目标对象最有可能所在的位置。

要处理比例和旋转变化,请考虑创建图像金字塔,或不同比例和旋转的图像集,它们是原始图像的版本。然后筛选这些图像以找到目标图像。

于 2016-02-03T21:32:31.693 回答