algorithm - 图像识别在 Google Shopper 中是如何工作的？

Question

我对这个软件的运行效果（和速度）感到惊讶。在昏暗的灯光下，我将手机的摄像头悬停在书籍封面的一小块区域上，Google Shopper 只需几秒钟就可以识别它。这几乎是神奇的。有谁知道它是如何工作的？

score 2 · Accepted Answer

我不知道 Google Shopper是如何工作的。但它可以像这样工作：

拍摄您的图像并转换为边缘（使用边缘过滤器，保留颜色信息）。
找到边缘相交的点并列出它们（包括颜色，也许还有相交边缘的角度）。
通过选择高对比度点对并测量它们之间的距离，转换为与旋转无关的度量。现在书的封面用一串数字表示：(edgecolor1a,edgecolor1b,edgecolor2a,edgecolor2b,distance)。
选择最显着的距离值对，并对距离进行比率。
将此数据作为查询字符串发送给 Google，它会在其中找到最相似的向量（可能使用直接最近邻计算，或者可能使用经过适当训练的分类器——可能是支持向量机）。

Google Shopper 还可以发送整张图片，此时 Google 可以使用功能更强大的处理器来处理图像处理数据，这意味着它可以使用更复杂的预处理（我选择上述步骤非常简单，以至于可在智能手机上使用）。

无论如何，一般步骤很可能是（1）提取尺度和旋转不变特征，（2）将该特征向量与预先计算的特征库相匹配。

score 1 · Accepted Answer

无论如何，模式识别/机器学习方法通常基于：

从图像中提取可以描述为数字的特征。例如，使用边缘（如 Rex Kerr 之前解释的）、颜色、纹理等。描述或表示图像的一组数字称为“特征向量”或有时称为“描述符”。在提取图像的“特征向量”之后，可以使用距离或（不）相似度函数来比较图像。
从图像中提取文本。有几种方法可以做到，通常基于 OCR（光学字符识别）
使用特征和文本对数据库执行搜索，以找到最接近的相关产品。

也有可能图像也被切割成子图像，因为算法通常会在图像上找到特定的标志。

在我看来，图像特征被发送到不同的模式分类器（能够使用作为输入特征向量来预测“类别”的算法），以便识别徽标，然后识别产品本身。

Using this approach, it can be: local, remote or mixed. If local, all processing is carried out on the device, and just the "feature vector" and "text" are sent to a server where the database is. If remote, the whole image goes to the server. If mixed (I think this is the most probable one), partially executed locally and partially at the server.

Another interesting software is the Google Googles, that uses CBIR (content-based image retrieval) in order to search for other images that are related to the picture taken by the smartphone. It is related to the problem that is addressed by Shopper.

score -1 · Accepted Answer

-1

模式识别。

于 2010-09-16T13:12:54.880 回答

3 回答 3