所以我遇到了一个小问题。假设我有一段人们过马路的视频 - 在这个例子中,假设相机看起来垂直于人们走过的方式(他们相对于相机直接水平行走)。
现在,从这段录像中,我想计算过马路的人数。
视频流由 20FPS 素材组成,我的问题是我的 AI 模型评估的每一帧都会返回 X 数量的人每帧(不是我真正感兴趣的)。
所以问题是,我如何评估通过一系列帧的对象,而不是评估对象在任何一个特定帧中的存在?
我认为的一种可能方法是,当对一个人进行新的预测(比如高于 90% 阈值)时,为其分配一些唯一标识并尝试在帧之间携带该唯一标识符......
好像有更简单的方法,有人知道吗?