ocr - OCR 不适用于大图像（包含大量文本） - Google Cloud Vision API

Question

我们注意到，如果图像包含大量文本，Google Vision API 就无法正常工作。它返回“奇怪”的结果。

这是一个例子：

https://www.dropbox.com/s/vhqxxwgj4stvfc9/screenwithproblem.jpg?dl=0 - 将返回如下内容： https ://www.dropbox.com/s/r3gkn38rw36agvs/Screenshot%202016-11-30% 2011.26.20.jpg?dl=0

如果我们只发送该图像的一部分，一切都会好起来的。也可以通过 API 的演示页面（cloud.google.com/vision）进行检查。

我们尝试了不同的图像并遇到了同样的问题。

如果我们做错了什么或者这是谷歌方面的问题，你能告诉我们吗？

提前谢谢你！

score 0 · Accepted Answer

我注意到文档中有一些相同的“奇怪结果”，特别是在打印褪色或模糊的文档质量较低的区域。似乎在某些情况下，API 猜测文本的语言不正确。

结果的每一页都应该告诉您该页面的百分比被检测为某些语言。

"property": {
          "detectedLanguages": [
            {
              "languageCode": "en",
              "confidence": 0.82
            },
            {
              "languageCode": "it",
              "confidence": 0.08
            },
            {
              "languageCode": "es",
              "confidence": 0.07
            }
          ]
        }

如果是这种情况，您可能需要尝试使用预定义的语言列表（或一种语言，如果已知）来减少检测到的错误语言的数量。（https://cloud.google.com/nodejs/docs/reference/vision/0.22.x/google.cloud.vision.v1p1beta1#.AnnotateImageRequest）

ocr - OCR 不适用于大图像（包含大量文本） - Google Cloud Vision API

1 回答 1

Related

Reference