通常,SIFT、SURF和许多其他算法提供一组k
关键点和相关的d
维度描述符(例如,在 SIFT 中,每个描述符都有d=128
维度)。
因此,为了描述图像,我们需要一个矩阵kxd
(k
描述符向量,每个d
维度都有一个)。到目前为止,一切都很好。
我的问题是:我们如何通过单个向量来描述图像?
这可能非常有用,因为我们可以节省大量空间,并且某些算法(如LSH)需要向量作为输入/查询。
在一些论文中(例如this,第 6.5 节),这种方法被描述为“全局描述符”。
据了解,我只找到了这篇论文,但它似乎不太准确(它是 2009 年的,不是那么新)。
更新: 其他可能的解决方案(评论中提出了一些建议):
视觉词袋
主旨描述符