0



我阅读了这篇文章(链接)并尝试理解那里介绍的算法。
所以,现在我几乎理解了这篇文章的所有观点,但有疑问:

如何将不同比例的视频量(密集采样后)转换为描述符?

据我了解,如果我有 100 帧 120*160 的视频,那么我应用不同比例的密集比例(例如[5*5*5, 10*10*10, 20*20*20]),然后我将分别得到[15360, 1920, 240]立方体。但是,在那之后我需要为它们中的每一个制作描述符,并且描述符的长度必须相同(在本文中描述符的长度与立方体的大小相同,所以[125, 1000, 8000])。

我认为的解决方案之一是为每个像素立方体创建不同比例的,然后将它们连接到一个长度为 9125 的向量中。对吗?

4

1 回答 1

0

所以,我找到了答案。
在每个像素周围,我必须构建每种尺寸的立方体(因此,每种尺寸大约有 1920000 个立方体)

于 2017-06-27T07:22:06.480 回答