有谁知道我可以用来为视频找到“有趣”的代表性缩略图的算法?
我说有 30 张位图,我想选择最具代表性的一张作为视频缩略图。
显而易见的第一步是消除所有黑框。然后也许寻找各种帧之间的“距离”并选择接近平均值的东西。
这里有什么想法或发表的论文可以提供帮助吗?
有谁知道我可以用来为视频找到“有趣”的代表性缩略图的算法?
我说有 30 张位图,我想选择最具代表性的一张作为视频缩略图。
显而易见的第一步是消除所有黑框。然后也许寻找各种帧之间的“距离”并选择接近平均值的东西。
这里有什么想法或发表的论文可以提供帮助吗?
如果视频包含结构,即几个镜头,那么视频摘要的标准技术包括(a)镜头检测,然后(b)使用第一帧、中间帧或第 n 帧来表示每个镜头。见[1]。
但是,让我们假设您希望在从单个相机源拍摄的单个连续帧流中找到有趣的帧。即一枪。这就是 IR/CV(信息检索,计算机视觉)文本中广泛讨论的“关键帧检测”问题。一些说明性方法:
一般来说,这是一个很大的领域,有很多方法。您可以查看国际图像和视频检索会议 (CIVR) 等学术会议,了解最新的想法。我发现 [6] 对视频抽象(关键帧检测和总结)进行了有用的详细总结。
对于您的“找到 30 个位图中最好的”问题,我会使用 [2] 之类的方法。计算一个帧表示空间(例如帧的颜色直方图),计算一个直方图来表示所有帧,并使用两者之间距离最小的帧(例如选择一个最适合您的空间的距离度量。我会尝试地球移动距离)。
你要文件,所以我找到了一些。如果您不在校园内或通过 VPN 连接到校园,这些文件可能很难获得。
PanoramaExcerpts:为视频浏览提取和打包全景图
http://portal.acm.org/citation.cfm?id=266396
这个解释了一种生成漫画风格关键帧表示的方法。
抽象的:
本文介绍了自动创建类似于漫画书的图片视频摘要的方法。视频片段的相对重要性是根据它们的长度和新颖性计算的。图像和音频分析用于自动检测和强调有意义的事件。基于这个重要性度量,我们选择相关的关键帧。选定的关键帧按重要性调整大小,然后有效地打包成图形摘要。我们对摘要捕捉视频中的显着事件的程度进行了定量测量,并展示了如何使用它来改进我们的摘要。结果是一个紧凑且视觉上令人愉悦的摘要,它捕获了语义上重要的事件,并且适用于打印或 Web 访问。通过包含源自 OCR 或其他方法的文本标题,可以进一步增强此类摘要。
基于场景内容的代表性关键帧自动提取
http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=751008
抽象的:
为电影生成索引是一个乏味且昂贵的过程,我们试图将其自动化。虽然寻找场景边界的算法很容易获得,但在选择单个帧以简洁地表示场景方面几乎没有工作。在本文中,我们提出了基于场景内容自动选择代表性关键帧的新算法。在详细描述几种算法之后,分析人类对所选帧代表场景的感觉如何。最后,我们讨论了如何将这些算法与现有算法集成以寻找场景边界。
我认为你应该只看关键帧。
如果视频未使用基于关键帧的压缩进行编码,您可以根据以下文章创建算法:通过运动分析选择关键帧。
根据视频的压缩,您可以每 2 秒或 30 秒拥有关键帧。比我认为您应该使用文章中的算法从所有关键帧中找到“最多”的关键帧。
偏爱美观的框架也可能是有益的。也就是说,寻找摄影的共同属性——纵横比、对比度、平衡等。
如果您不知道自己在寻找什么,就很难找到有代表性的镜头。但是通过一些启发式方法和我的建议,至少你可以想出一些好看的东西。
我最近参与了一个项目,我们做了一些视频处理,就视频处理而言,我们使用OpenCV来完成繁重的工作。我们必须提取帧、计算差异、提取人脸等。OpenCV 有一些内置算法可以计算帧之间的差异。它适用于各种视频和图像格式。
哇,真是个好问题——我想第二步是迭代地删除它和它的后继者之间几乎没有变化或没有变化的帧。但是你真正做的只是减少可能有趣的帧集。我认为您如何确定“有趣性”是一种特殊的调味料,因为您没有像 Flickr 那样依赖的用户交互统计数据。
导演有时会停留在一个特别“有趣”或美丽的镜头上,那么如何找到一个 5 秒不变的部分,然后消除那些几乎是黑色的部分?