我正在尝试创建一个程序,可以在使命召唤游戏的视频中找到人物。我已经从该视频中编译了大约 2200 张单独图像的列表,这些图像要么包含人物,要么不包含人物。然后我尝试训练一个神经网络来区分两组图像之间的差异。
然后,我将每个视频帧分成几百个网格矩形,并用我的 ANN 检查每个。矩形重叠以尝试捕获网格矩形之间的图形,但这似乎效果不佳。所以我有几个问题:
神经网络是要走的路吗?我读到它们与其他机器学习算法相比非常快,最终我计划将其用于实时视频,速度非常重要。
搜索图像帧中的数字以在 ANN 上测试的最佳方法是什么?我觉得我做的方式不是很好。它绝对不是很快或准确的。960 x 540 的图像每帧大约需要 1 秒,并且精度很差。
我遇到的另一个问题是构建特征向量以用作 ANN 输入的最佳方法。目前,我只是将所有输入图像缩小到 25 x 50 像素,并创建一个包含每个像素强度的特征向量。这是一个非常大的向量(1250 个浮点数)。构建特征向量的更好方法是什么?
有关我在这里所做的更详细的解释:CodAI:计算机视觉
编辑:我想要更多细节。计算特征的最佳方法是什么。我需要能够识别许多不同位置的人物。我是否需要创建单独的分类器来识别直立、蹲伏和俯卧之间的区别?