为了从视频帧中提取特征(2 个样本/秒),我在 python 中使用 keras 框架并加载输入大小为 (150,150,3) 且输出大小为 (4,4,512) 的 VGG16。在特征提取步骤之后,我想用 Hierarchical K-Means 对帧特征进行聚类。
我的问题如下:
我将每个帧特征保存在一个大小为 8192 的向量中。对于具有 8000 帧的视频,如果仅将每个帧大小减小到 (150,150) 并提取特征,那么我就有一个大小为 (640,8192) 的特征矩阵。正如您所见,即使是一个视频的特征矩阵也非常大,除了“稀疏”之外。减少其尺寸的最佳方法是什么?
计算两对框架特征之间距离的最佳指标是什么?空间如此稀疏,甚至特征值都如此之小,所以欧式距离不是明智的选择!!