我读过一些关于 Fisher Vector 的文章,但我仍在学习过程中。它比经典的 BoF 表示更好,利用 GMM(或 k-means,即使通常称为 VLAD)。
但是,我看到它们通常用于分类问题,例如 SVM。
但是图像检索呢?我已经看到它们也被用于图像检索(here),但我不明白一点:给定两个 FV 代表 2 个图像,我们如何计算它们的距离以及“这两个图像有多相似?”
在这种情况下使用它们是否合理?
我读过一些关于 Fisher Vector 的文章,但我仍在学习过程中。它比经典的 BoF 表示更好,利用 GMM(或 k-means,即使通常称为 VLAD)。
但是,我看到它们通常用于分类问题,例如 SVM。
但是图像检索呢?我已经看到它们也被用于图像检索(here),但我不明白一点:给定两个 FV 代表 2 个图像,我们如何计算它们的距离以及“这两个图像有多相似?”
在这种情况下使用它们是否合理?
从下面的两篇论文中可以看出,欧几里得距离似乎是流行的选择。也有使用点积作为相似性度量的参考;余弦相似度(密切相关)是 ML 相似度的普遍流行度量。
http://link.springer.com/article/10.1007/s11263-013-0636-x
http://www.robots.ox.ac.uk/~vgg/publications/2013/Simonyan13/simonyan13.pdf
这足以让您选择满足您需求的东西吗?