computer-vision - 如何将不同比例的视频量（密集采样后）转换为描述符？

Question

我阅读了这篇文章（链接）并尝试理解那里介绍的算法。
所以，现在我几乎理解了这篇文章的所有观点，但有疑问：

如何将不同比例的视频量（密集采样后）转换为描述符？

据我了解，如果我有 100 帧 120*160 的视频，那么我应用不同比例的密集比例（例如[5*5*5, 10*10*10, 20*20*20]），然后我将分别得到[15360, 1920, 240]立方体。但是，在那之后我需要为它们中的每一个制作描述符，并且描述符的长度必须相同（在本文中描述符的长度与立方体的大小相同，所以[125, 1000, 8000]）。

我认为的解决方案之一是为每个像素立方体创建不同比例的，然后将它们连接到一个长度为 9125 的向量中。对吗？

score 0 · Accepted Answer

所以，我找到了答案。
在每个像素周围，我必须构建每种尺寸的立方体（因此，每种尺寸大约有 1920000 个立方体）

computer-vision - 如何将不同比例的视频量（密集采样后）转换为描述符？

1 回答 1

Related

Reference