我正在尝试为特定用例构建 ML 模型。我已经阅读了各种不同的库,并尝试训练我自己的分类器,但我觉得我所做的不太正确 - 对象检测的设置似乎都是基于你的对象的想法检测可以有多种形式,因此设计训练方法时要考虑到这一点。我的用例与此不同。
我有想要识别的静态平面图像,例如书籍封面。因此,我不需要提供它的许多图像,而只需要提供它的正面外观的单个图像是有道理的。我想训练一个机器学习模型,这样我就可以在训练后向它展示那本书封面的图像,它会识别它。
训练后的书皮图像可能包括环境因素,例如不同的照明,或交替的角度,但想法是,如果书皮本身在全视图中,它应该能够被识别。
事实证明,在这里弄清楚要做什么是相当困难的。我遇到的每个指南都是为培训可能采取多种形式的对象而设计的。为我的目的改编这些指南并没有成功。
我尝试使用 Turi Create 的非常简单的设置,在我为每本书拥有的每个数据点上对其进行训练,然后使用相同的数据进行验证,因为我显然没有训练和验证集。Turi Create 负责所有培训细节,显然是为每个班级的许多示例而设计的。我觉得我在这里为了我的目的而对其进行了严重的修改。经过测试,它也不适用于对象检测。
我使用 OpenCV 的关键点检测和最近邻匹配功能取得了一些有限的成功,但想法是会有更广泛的项目列表,可能是 10k 本书,因此以这种方式进行图像比较是不切实际的在每一个上。
在过去的一个月里,我一直在学习更多关于 ML 和计算机视觉的知识,但这肯定不是我的专业领域——我主要是一名软件开发人员。很感激我能在这里得到的任何建议。