4

我需要从一系列图像中进行降维。更具体地说,每个图像都是一个球运动的快照,最佳特征是它的位置和速度。据我所知,CNN 是减少图像分类特征的最先进技术,但在这种情况下,只提供一个帧。给定不同时间步长的许多图像,是否也可以提取与时间相关的特征?否则,这样做的最先进技术是什么?

这是我第一次使用 CNN,我也将不胜感激任何参考或任何其他建议。

4

1 回答 1

2

如果您希望能够让网络以某种方式识别与时间相关的进展,您可能应该研究循环神经网络 (RNN)。由于您将在视频上进行操作,因此您应该研究循环卷积神经网络 (RCNN),例如:http: //jmlr.org/proceedings/papers/v32/pinheiro14.pdf

循环增加了输入数据先前状态的一些记忆。请参阅 Karpathy 的这个很好的解释:http: //karpathy.github.io/2015/05/21/rnn-effectiveness/

在您的情况下,您需要跨多个图像而不是仅在一个图像内重复出现。您需要解决的第一个问题似乎是图像分割问题(​​能够从图像的其余部分中挑选出球),上面链接的第一篇论文涉及分割。(再一次,也许你正试图利用移动来识别移动的物体?)

这是另一个想法:也许您只能查看连续帧之间的差异并将其用作您的 convnet 的输入数据?然后,输入的“图像”将显示移动对象在前一帧中的位置以及在当前帧中的位置。较大的差异将表明较大的运动量。这可能与使用循环网络具有类似的效果。

于 2015-07-31T20:37:42.863 回答