我正在研究一个图像分类问题,我应该能够将图像分类为带有矩形表盘的手表/带有圆形表盘的手表/鞋子等。
我研究了基于内容的图像检索(使用 Dense SIFT 进行特征检测,使用 Bag of Words + SVM 进行分类),目前正在探索卷积神经网络(无监督特征学习)。
我的问题是图像是从相机拍摄的照片,因此包含其他元素(训练数据中不存在)。例如,我的矩形表盘手表的训练数据只包含手表,而我的测试图像包含手表和手的一部分,或者我的鞋子测试图像的鞋子方向不同(与鞋子的训练数据)。
我该如何解决这个问题?CNN(无监督特征学习)是正确的方法还是我应该坚持 D-SIFT + BOW + SVM?如何收集适当的训练数据?
谢谢你