ocr - Vision API - 强制 API 分析不被视为单个文本行的图像

Question

我一直在使用 Google Vision API，但我有一个无法真正解决的问题。这是我正在处理的图像：

在上图中，Google Vision API（也发生在IBM (Watson)和 Microsft (Cognitive Services)中）不理解 2,99€ 是可读的，因为它没有被视为单行，所以输出全部但我期望他做什么（了解标签的价格）。

如果我使用的是 Tesseract，我会通过使用该-psm 7选项来解决这个问题，以便强制它作为单个文本行读取，但我无法使用 Google Vision API 找到这种情况的文档。

有没有人做过类似的事情？我无法弄清楚如何解决这个问题......

score 1 · Accepted Answer

我有一个类似的问题，看起来 Vision API 可能不适合这类问题。API 不会为您提供有关找到的文本结构的任何信息（除了找到文本的矩形之外），反过来也不关心结构。

AFAIK 你还不能用视觉 API 解决这个问题，尽管将来可能会有某种解决方案。

现在有 AnnotateImageRequest 的“ ImageContext ”部分，我希望它将用于您将来尝试做的事情。

1 回答 1