我必须从电影中人的肩膀所在的视频进行本地化。对如何做到这一点有什么建议吗?
我考虑过角点检测或某种形状检测。但我仍然不确定接下来会发生什么。我们可以将视频视为图像序列(我写了这个,但我认为很明显)?
我必须从电影中人的肩膀所在的视频进行本地化。对如何做到这一点有什么建议吗?
我考虑过角点检测或某种形状检测。但我仍然不确定接下来会发生什么。我们可以将视频视为图像序列(我写了这个,但我认为很明显)?
幸运的是,肩膀通常连接到头部......
我使用了 Dalal-Triggs 算法(维基百科) 来检测所有面对相机的人的头部和肩膀。基本上,您在标记了头部和肩膀的正面示例和不包含这些身体部位的负面示例上训练线性 SVM。描述符是梯度直方图 (HOG),它告诉您在描述符的每个单元格中哪些边缘方向占主导地位。我发现他们的归一化方案在处理非均匀照明时非常重要。
通过足够多的示例,线性 SVM 将为您提供可以解释为描述符的平面法线:您可以可视化正权重的含义,并看到它们勾勒出头+肩的轮廓。同样,负权重将属于身体外部的区域,和/或与轮廓边缘正交的方向。
您可以在多个尺度和纵横比下对每个图像有效地应用线性 SVM 分类器,并找到具有最佳响应的图像块。这应该会给你头部和肩膀的位置(虽然它不会是准确的)