Disclamer:我对 CNN 和深度学习一无所知,也不了解Torch。
我将SIFT用于我的对象识别应用程序。我发现这篇论文Discriminative Learning of Deep Convolutional Feature Point Descriptors特别有趣,因为它基于 CNN,比经典的图像描述方法(例如 SIFT、SURF 等)更精确,但是(引用摘要):
在训练和测试期间使用 L2 距离,我们开发了 128-D 描述符,其欧几里德距离反映了块相似性,并且可以用作任何涉及 SIFT 的任务的替代品
哇,太棒了:这意味着我们可以继续使用任何基于 SIFT 的方法,但要使用更精确的描述符!
但是,引用github 代码存储库README:
请注意,输出将是一个 Nx128 2D 浮点张量,其中每一行都是一个描述符。
那么,什么是“2D 浮点张量”?SIFT 描述符矩阵是 Nx128 浮点数,有什么我遗漏的吗?