3

我对 Google Vision API 的 TEXT_DETECTION 很感兴趣,它的效果令人印象深刻。但似乎 TEXT_DETECTION 仅在文本为英文时才给出准确的结果。就我而言,我想在非常狭窄的上下文中使用 TEXT_DETECTION,例如检测特定语言的广告横幅上的文本(我的情况是越南语)。我可以根据自己的数据收集训练机器以获得更准确的结果吗?以及如何实现这一点?

除了 Google Vision API 的 TEXT_DETECTION 之外,Google 还有使用 Tesseract 依赖项的 Google 光学字符识别 (OCR) 软件。据我所知,他们有不同的算法来检测文本。我使用 Google Docs 和 Google Vision API 的 TEXT_DETECTION 从图片中读取文本(越南语)。Google Docs 给出了很好的结果,但 Vision API 没有。为什么 Google Vision API 没有继承 Google OCR 的优势?

我想多说一些关于 Google Vision API 文本检测的内容,也许这里有任何 Google 专家都可以阅读。正如谷歌宣布的那样,他们的 TEXT_DETECTION 非常棒:“即使这张图片中的文字倾斜且不清楚,OCR 仍能正确提取文字及其位置。它甚至可以在演示者的 T 恤上提取“信标”这个词。但是对于我的一些照片,发生的事情真的很有趣。例如这张照片,即使“Kem Oxit”字样在照片中央很大,也无法识别。或者在这张图片中,图片中心的红色文字“HOA CHAT NGOC VIET”也没有被识别。文本检测算法一定有问题。

4

2 回答 2

2

您是否尝试过 LanguageHints(文档链接)?

越南语在支持的语言列表中,如果文本始终是越南语,这应该会提高文本检测的质量。

如果这没有帮助,您将无法通过提供自己的训练示例来提高文本检测的质量。

于 2016-10-13T20:55:41.253 回答
1

Fematich是对的,目前无法训练 Google Vision API 的 TEXT_DETECTION 功能。

关于光学字符识别软件,它用于 Google Vision API for TEXT_DETECTION 根据此链接。为了获得更好的结果,验证是否有任何最佳实践适用于您的图片非常重要。Google Docs 可能有不同的预处理机制,您可以在Google Docs 帮助论坛上询问有关该机制的信息。

第一张图像的分辨率为 375x500 像素,不满足最佳实践中所述的 640x480 像素的最低分辨率要求。尽管如此,通过将其重新缩放到 1024x1365 像素,Google Vision API 还是能够检测到“Oxit”这个词。在将第二张图像重新缩放为 OCR 推荐的 1024x768 像素大小以进行字符识别后,API 再次成功检测到“HOA CHAT NGOC VIET”字样。请注意,将来此类问题将更适合Public Issue Tracker,因为它可能需要更多详细信息才能重现您的确切错误。

于 2016-10-26T21:47:49.100 回答