google-cloud-platform - 如何针对特定语言改进 Google Vision API 的 TEXT_DETECTION

Question

我对 Google Vision API 的 TEXT_DETECTION 很感兴趣，它的效果令人印象深刻。但似乎 TEXT_DETECTION 仅在文本为英文时才给出准确的结果。就我而言，我想在非常狭窄的上下文中使用 TEXT_DETECTION，例如检测特定语言的广告横幅上的文本（我的情况是越南语）。我可以根据自己的数据收集训练机器以获得更准确的结果吗？以及如何实现这一点？

除了 Google Vision API 的 TEXT_DETECTION 之外，Google 还有使用 Tesseract 依赖项的 Google 光学字符识别 (OCR) 软件。据我所知，他们有不同的算法来检测文本。我使用 Google Docs 和 Google Vision API 的 TEXT_DETECTION 从图片中读取文本（越南语）。Google Docs 给出了很好的结果，但 Vision API 没有。为什么 Google Vision API 没有继承 Google OCR 的优势？

我想多说一些关于 Google Vision API 文本检测的内容，也许这里有任何 Google 专家都可以阅读。正如谷歌宣布的那样，他们的 TEXT_DETECTION 非常棒：“即使这张图片中的文字倾斜且不清楚，OCR 仍能正确提取文字及其位置。它甚至可以在演示者的 T 恤上提取“信标”这个词。但是对于我的一些照片，发生的事情真的很有趣。例如这张照片，即使“Kem Oxit”字样在照片中央很大，也无法识别。或者在这张图片中，图片中心的红色文字“HOA CHAT NGOC VIET”也没有被识别。文本检测算法一定有问题。

score 2 · Accepted Answer

您是否尝试过 LanguageHints（文档链接）？

越南语在支持的语言列表中，如果文本始终是越南语，这应该会提高文本检测的质量。

如果这没有帮助，您将无法通过提供自己的训练示例来提高文本检测的质量。

score 1 · Accepted Answer

Fematich是对的，目前无法训练 Google Vision API 的 TEXT_DETECTION 功能。

关于光学字符识别软件，它用于 Google Vision API for TEXT_DETECTION 根据此链接。为了获得更好的结果，验证是否有任何最佳实践适用于您的图片非常重要。Google Docs 可能有不同的预处理机制，您可以在Google Docs 帮助论坛上询问有关该机制的信息。

第一张图像的分辨率为 375x500 像素，不满足最佳实践中所述的 640x480 像素的最低分辨率要求。尽管如此，通过将其重新缩放到 1024x1365 像素，Google Vision API 还是能够检测到“Oxit”这个词。在将第二张图像重新缩放为 OCR 推荐的 1024x768 像素大小以进行字符识别后，API 再次成功检测到“HOA CHAT NGOC VIET”字样。请注意，将来此类问题将更适合Public Issue Tracker，因为它可能需要更多详细信息才能重现您的确切错误。

google-cloud-platform - 如何针对特定语言改进 Google Vision API 的 TEXT_DETECTION

2 回答 2

Related

Reference