我从一个大学项目开始,我正在寻找一种工具来帮助我从图像中的特定对象中找到以像素为单位的坐标(X,Y)(我不是在谈论文本)。我想知道 IBM Watson Visual 识别是否可以帮助我实现这一目标,或者您是否知道任何其他可以更好地工作的工具。
谢谢你。
我从一个大学项目开始,我正在寻找一种工具来帮助我从图像中的特定对象中找到以像素为单位的坐标(X,Y)(我不是在谈论文本)。我想知道 IBM Watson Visual 识别是否可以帮助我实现这一目标,或者您是否知道任何其他可以更好地工作的工具。
谢谢你。
您可以使用 Watson 视觉识别“有点”地做到这一点。首先,您需要训练一个自定义分类器来“找到”您正在寻找的对象。一旦你完成了这些,你就成功了一半。
第二部分涉及拍摄要在其中找到对象的图像,并将其分成四个部分(左上、左下、右上、右下)。然后,您在图像的每个部分中搜索您的目标对象。如果您在其中一个象限中找到它,然后将该象限分成四个部分,然后在图像的每个部分中搜索目标对象。如果您继续递归地执行此操作(并跟踪每个象限和子象限的像素边界),最终您将缩小您正在搜索的对象。
现在你应该也想做其他的搜索算法。考虑您的目标对象位于图像中心的情况 - 它不会出现在任何象限中。如果您的对象恰好跨越象限边界,您将无法获得准确的位置,因此需要多种搜索模式,但策略和方法是相同的。
您还可以采用混合“云边缘”方法,如下所述:https ://medium.com/unsupervised-coding/dont-miss-your-target-object-detection-with-tensorflow-and-watson-488e24226ef3
它使用在本地运行的 TensorFlow 模型来检测区域,然后使用 Watson VR 来判断每个区域中的内容。这结合了 TensorFlow 的灵活性和 Watson VR 对许多(数万)不同类型的对象进行分类的能力。