1

我想训练一个卷积神经网络来检测图像中手的存在。

困难在于:1/ 图像将包含除手以外的其他对象,就像一组人的照片,其中手只是图像的一小部分 2/ 手可以有许多方向/形状等(无论它们是否是否打开,取决于角度等。)

我正在考虑在一大组裁剪的手部图像(+ 没有手部的随机图像)上训练卷积网络,然后将分类器应用于我图像的所有子方块。这是一个好方法吗?

还有其他复杂的 2 类 convnets / RNNs 的例子我可以用来作为灵感吗?

谢谢!

4

2 回答 2

1

这似乎更像是寻找良好标记的训练数据而不是选择网络的问题。神经网络可以学习“手的图片”和“偶然包含手的图片”之间的区别,但它需要一些标记的示例来确定图像属于哪个类别。

你可能想看看这个: http: //www.socher.org/index.php/Main/ParsingNaturalScenesAndNaturalLanguageWithRecursiveNeuralNetworks

于 2015-04-24T01:02:20.677 回答
1

我正在考虑在一大组裁剪的手部图像(+ 没有手部的随机图像)上训练卷积网络,然后将分类器应用于我图像的所有子方块。这是一个好方法吗?

是的,我相信这将是一个好方法。但是,请注意,当您说随机时,您也许应该从“最有可能出现手”的图像中对其进行采样。这实际上取决于您的用例,您必须调整数据集以适应您正在做的事情。

您应该如何构建数据集,如下所示:

  1. 从大图像中裁剪手的图像。
  2. 从同一张图像中采样 X 个图像,但不在手/手附近的任何地方。

但是,如果您应该选择执行以下操作:

  1. 从大图像中裁剪手的图像。
  2. 下载 100 万张绝对没有手的图片(有点夸张)。例如,沙漠、海洋、天空、洞穴、山脉,基本上是很多风景。然后将其用作“没有手的随机图像”,您可能会得到不好的结果。

这样做的原因是因为已经有一个基础分布。我假设您的大多数图像可能是一群朋友的照片,在家里开派对,或者背景图像可能是建筑物。因此,在保持上述假设的同时,引入风景图像可能会破坏这种分布。

因此,使用“随机图像”时要非常小心!

在我图像的所有子方格上

至于您问题的这一部分,您实际上是在整个图像上运行一个滑动窗口。是的,实际上,它会起作用。但是,如果您正在寻找性能,这可能不是一个好主意。您可能需要运行一些分割算法来缩小搜索空间。

还有其他复杂的 2 类 convnets / RNNs 的例子我可以用来作为灵感吗?

我不确定你所说的复杂的 2 类 convnet 是什么意思。我不熟悉 RNN,所以让我专注于 convnet。你基本上可以自己定义卷积网络。例如,卷积层的大小、层数、最大池化方法是什么、全连接层有多大等等。最后一层基本上是一个 softmax 层,网络决定了它要去哪个类是。如果您有 2 个类,则最后一层有 2 个节点。如果你有 3 个,那么 3 个。依此类推。所以它的范围可以从 2 到甚至 1000。我没有听说过有超过 1000 个类的卷积网络,但我可能不了解情况。我希望这有帮助!

于 2016-01-15T13:36:21.483 回答