2

我需要从特定人类动作的视频中提取单个“关键帧”(这些动作可能是通用的),使其具有区分性而不是描述性(在视频中寻找有趣的帧)。

简而言之,我需要在篮球视频中找到一个能够将其与喝咖啡视频区分开来的帧。

我看到的大多数论文都是某种视频摘要技术,但这样提取的帧不一定是区分动作类别的最佳选择。这是我的绊脚石——在测试期间,我只有测试视频来提取关键帧,但我需要一些模型来提取与其他动作类别视频最不同的帧。

4

2 回答 2

1

尽管这是一个有趣的问题,但对我来说听起来并不明确。您想要一个能够将您的测试视频与其他视频区分开来的帧(很有可能不止一个,因此谈论“一帧”可能是不正确的),但您不知道其他视频是什么. 例如,如果您的整套视频包含篮球视频怎么办?在不知道(或至少有一些合理的期望)其他视频是什么的情况下,即使对人类来说,这项任务也是不可能的。

我能想到的一种方法涉及一个概率模型,它可以帮助您确定一个框架是否是唯一的。您可以使用一些现有的视频测试集来训练此模型:使用某种相似性度量将所有帧相互比较,并关注那些出现频率最低的帧。然后将该模型应用于不同(但相似)的测试集。YMMV。

最后,您提到您对动作类别感兴趣,但您只关注帧,即仅静止图像。首先将视频分割成镜头(查看您发布的链接)然后寻找独特的镜头可能很有用。然后,您可以从独特的镜头中选择您独特的候选帧。

祝你好运!

于 2011-10-22T13:18:38.700 回答
1

视频是固定背景吗?(静止图像,无摄像机运动)

如果是这样,您可以使用以下简单算法:

  1. 对于每个视频,通过随时间平均每个像素来计算平均图像。(= 合成代表性图像)。
  2. 对于每个视频: A. 对于每一帧,计算它与其他视频的代表帧之间的距离分数。B. 保持整体距离最远的框架。(与其他视频代表区别最大的那一帧)
于 2011-10-29T21:28:32.177 回答