1

我一直在使用 Google Vision API,但我有一个无法真正解决的问题。这是我正在处理的图像:

在此处输入图像描述

在上图中,Google Vision API(也发生在IBM (Watson)Microsft (Cognitive Services)中)不理解 2,99€ 是可读的,因为它没有被视为单行,所以输出全部但我期望他做什么(了解标签的价格)。

如果我使用的是 Tesseract,我会通过使用该-psm 7选项来解决这个问题,以便强制它作为单个文本行读取,但我无法使用 Google Vision API 找到这种情况的文档。

有没有人做过类似的事情?我无法弄清楚如何解决这个问题......

4

1 回答 1

1

我有一个类似的问题,看起来 Vision API 可能不适合这类问题。API 不会为您提供有关找到的文本结构的任何信息(除了找到文本的矩形之外),反过来也不关心结构。

AFAIK 你还不能用视觉 API 解决这个问题,尽管将来可能会有某种解决方案。

现在有 AnnotateImageRequest 的“ ImageContext ”部分,我希望它将用于您将来尝试做的事情。

于 2016-10-17T09:01:04.593 回答