我阅读了这篇文章(链接)并尝试理解那里介绍的算法。
所以,现在我几乎理解了这篇文章的所有观点,但有疑问:
如何将不同比例的视频量(密集采样后)转换为描述符?
据我了解,如果我有 100 帧 120*160 的视频,那么我应用不同比例的密集比例(例如[5*5*5, 10*10*10, 20*20*20]
),然后我将分别得到[15360, 1920, 240]
立方体。但是,在那之后我需要为它们中的每一个制作描述符,并且描述符的长度必须相同(在本文中描述符的长度与立方体的大小相同,所以[125, 1000, 8000]
)。
我认为的解决方案之一是为每个像素立方体创建不同比例的,然后将它们连接到一个长度为 9125 的向量中。对吗?