由于好奇,我在使用 Google Goggle 和 Google 的“按图像搜索”时提出了这个问题。
如果您尝试向 Google 提供要搜索的图片,它可以向您显示一些结果。相同的图像效果最好(当然),但拍摄各种物体的照片可能很困难。
我猜 Google Goggle 通过使用文本识别和图像匹配识别来解决一些问题。如果文本识别找到了文本,例如“SONY”,那么事情可能会变得更简单。如果检测到品牌的形象,那么事情也应该更简单。其他著名品牌和著名地标也是如此,例如埃菲尔铁塔。拥有文字和品牌形象有助于轻松识别事物。
但是,如果我们要寻找更晦涩的东西(这里需要更好的措辞),例如,请使用这个拉面图像。
如果你把这张图片放到谷歌上,你会得到各种其他图片的图片,这些图片有相似的颜色,有时也有相似的形状。哎呀,结果中还有其他拉面图像,但我认为如果这些拉面图像在顶部会更好,因为我们输入了拉面图像,而我们这里的上下文是拉面。
所以这里是我的问题,是否有可能创建这样一个可以理解图像上下文的软件?我们如何在软件中表达上下文?