computer-vision - 是否有可能创建一个可以识别图像上下文的软件？

Question

由于好奇，我在使用 Google Goggle 和 Google 的“按图像搜索”时提出了这个问题。

如果您尝试向 Google 提供要搜索的图片，它可以向您显示一些结果。相同的图像效果最好（当然），但拍摄各种物体的照片可能很困难。

我猜 Google Goggle 通过使用文本识别和图像匹配识别来解决一些问题。如果文本识别找到了文本，例如“SONY”，那么事情可能会变得更简单。如果检测到品牌的形象，那么事情也应该更简单。其他著名品牌和著名地标也是如此，例如埃菲尔铁塔。拥有文字和品牌形象有助于轻松识别事物。

但是，如果我们要寻找更晦涩的东西（这里需要更好的措辞），例如，请使用这个拉面图像。

如果你把这张图片放到谷歌上，你会得到各种其他图片的图片，这些图片有相似的颜色，有时也有相似的形状。哎呀，结果中还有其他拉面图像，但我认为如果这些拉面图像在顶部会更好，因为我们输入了拉面图像，而我们这里的上下文是拉面。

所以这里是我的问题，是否有可能创建这样一个可以理解图像上下文的软件？我们如何在软件中表达上下文？

score 1 · Accepted Answer

伙计，你只是指出了这么多人从事计算机视觉工作的原因。

用数学方法描述对象很容易。颜色，形状，密度，。. . 所有这些都可以很容易地计算出来。

但是当谈论“现实生活中的物体”时，计算机视觉变得非常复杂。

角度、亮度和简单的不一致性使得准确地检测物体几乎是不可能的。

在从事计算机视觉工作时，您应该始终问自己：是什么让我想要识别的对象与众不同？

我可以使用没有其他对象拥有的描述符？

问问自己关于这些拉面的问题。假设我只是想检测拉面。如果汤的颜色变了怎么办？如果肉大了怎么办？

如果你想了解更多，你应该阅读模式识别和模式匹配。

如果你能以通用的方式找到这类问题的解决方案，你可以注册我认为的诺贝尔价格:)

现在有些东西是众所周知的，例如人脸识别或OCR；但它们通常非常专业，只适用于一个领域。想想看，当你用拉面喂它时，即使是谷歌的图像搜索算法也很糟糕。不过，数独非常有效，因为他确切地知道他在寻找什么。所有的区别都在训练中产生，你给出一个假设列表来帮助算法。

所以基本上你明白了。要么您创建一个非常好的计算机视觉系统，该系统擅长基于大量假设检测一件事，要么创建一个“好的”但非常通用的系统:)。选择主要取决于您的应用程序

1 回答 1