0

由于好奇,我在使用 Google Goggle 和 Google 的“按图像搜索”时提出了这个问题。

如果您尝试向 Google 提供要搜索的图片,它可以向您显示一些结果。相同的图像效果最好(当然),但拍摄各种物体的照片可能很困难。

我猜 Google Goggle 通过使用文本识别和图像匹配识别来解决一些问题。如果文本识别找到了文本,例如“SONY”,那么事情可能会变得更简单。如果检测到品牌的形象,那么事情也应该更简单。其他著名品牌和著名地标也是如此,例如埃菲尔铁塔。拥有文字和品牌形象有助于轻松识别事物。

但是,如果我们要寻找更晦涩的东西(这里需要更好的措辞),例如,请使用这个拉面图像。

拉面

如果你把这张图片放到谷歌上,你会得到各种其他图片的图片,这些图片有相似的颜色,有时也有相似的形状。哎呀,结果中还有其他拉面图像,但我认为如果这些拉面图像在顶部会更好,因为我们输入了拉面图像,而我们这里的上下文是拉面。

所以这里是我的问题,是否有可能创建这样一个可以理解图像上下文的软件?我们如何在软件中表达上下文?

4

1 回答 1

1

伙计,你只是指出了这么多人从事计算机视觉工作的原因。

用数学方法描述对象很容易。颜色,形状,密度,。. . 所有这些都可以很容易地计算出来。

但是当谈论“现实生活中的物体”时,计算机视觉变得非常复杂。

角度、亮度和简单的不一致性使得准确地检测物体几乎是不可能的。

在从事计算机视觉工作时,您应该始终问自己:是什么让我想要识别的对象与众不同?

我可以使用没有其他对象拥有的描述符?

问问自己关于这些拉面的问题。假设我只是想检测拉面。如果汤的颜色变了怎么办?如果肉大了怎么办?

如果你想了解更多,你应该阅读模式识别和模式匹配。

如果你能以通用的方式找到这类问题的解决方案,你可以注册我认为的诺贝尔价格:)

现在有些东西是众所周知的,例如人脸识别或OCR;但它们通常非常专业,只适用于一个领域。想想看,当你用拉面喂它时,即使是谷歌的图像搜索算法也很糟糕。不过,数独非常有效,因为他确切地知道他在寻找什么。所有的区别都在训练中产生,你给出一个假设列表来帮助算法。

所以基本上你明白了。要么您创建一个非常好的计算机视觉系统,该系统擅长基于大量假设检测一件事,要么创建一个“好的”但非常通用的系统:)。选择主要取决于您的应用程序

于 2012-10-12T20:35:53.630 回答