python - 如果我的视频带有可变帧，如何设置 LSTM 的输入（通过视频进行姿势识别）？

翻译自：https://stackoverflow.com/questions/68405220 2021-07-16T07:35:18.240

47 次

0

我有 2 个姿势要分类。对于每个姿势，我有 60 个视频样本。但问题是每个视频的总帧数不同。在这种情况下，LSTM 的输入将是不均匀的。有没有办法解决这个问题？或者我们需要相同帧数的视频？

细节：输入是为每一帧提取的关键点。假设每一帧的关键点是 100，那么对于 60 帧的视频，总关键点将是 6000。另一方面，对于 75 帧的视频，关键点将是 7500。

在第一种情况下，（x，y，6000），在第二种情况下（x，y，7500）。但是 LSTM（或任何其他 NN）的 input_shape 应该设置为常数（比如（x，y，6000））。

这仅适用于两种情况。我有 50 多个视频。我怎么解决这个问题？

1 回答 1

0

零填充以补充丢失的帧可能是解决方案之一。这将允许每个视频的总帧数对于所有视频集都是统一的。
另一种制作统一帧数的方法是制作第一帧和最后一帧的多个副本并附加它们。

于 2021-08-05T03:29:30.543 回答