我需要从特定人类动作的视频中提取单个“关键帧”(这些动作可能是通用的),使其具有区分性而不是描述性(在视频中寻找有趣的帧)。
简而言之,我需要在篮球视频中找到一个能够将其与喝咖啡视频区分开来的帧。
我看到的大多数论文都是某种视频摘要技术,但这样提取的帧不一定是区分动作类别的最佳选择。这是我的绊脚石——在测试期间,我只有测试视频来提取关键帧,但我需要一些模型来提取与其他动作类别视频最不同的帧。
我需要从特定人类动作的视频中提取单个“关键帧”(这些动作可能是通用的),使其具有区分性而不是描述性(在视频中寻找有趣的帧)。
简而言之,我需要在篮球视频中找到一个能够将其与喝咖啡视频区分开来的帧。
我看到的大多数论文都是某种视频摘要技术,但这样提取的帧不一定是区分动作类别的最佳选择。这是我的绊脚石——在测试期间,我只有测试视频来提取关键帧,但我需要一些模型来提取与其他动作类别视频最不同的帧。
尽管这是一个有趣的问题,但对我来说听起来并不明确。您想要一个能够将您的测试视频与其他视频区分开来的帧(很有可能不止一个,因此谈论“一帧”可能是不正确的),但您不知道其他视频是什么. 例如,如果您的整套视频包含篮球视频怎么办?在不知道(或至少有一些合理的期望)其他视频是什么的情况下,即使对人类来说,这项任务也是不可能的。
我能想到的一种方法涉及一个概率模型,它可以帮助您确定一个框架是否是唯一的。您可以使用一些现有的视频测试集来训练此模型:使用某种相似性度量将所有帧相互比较,并关注那些出现频率最低的帧。然后将该模型应用于不同(但相似)的测试集。YMMV。
最后,您提到您对动作类别感兴趣,但您只关注帧,即仅静止图像。首先将视频分割成镜头(查看您发布的链接)然后寻找独特的镜头可能很有用。然后,您可以从独特的镜头中选择您独特的候选帧。
祝你好运!
视频是固定背景吗?(静止图像,无摄像机运动)
如果是这样,您可以使用以下简单算法: