我对 Google Vision API 的 TEXT_DETECTION 很感兴趣,它的效果令人印象深刻。但似乎 TEXT_DETECTION 仅在文本为英文时才给出准确的结果。就我而言,我想在非常狭窄的上下文中使用 TEXT_DETECTION,例如检测特定语言的广告横幅上的文本(我的情况是越南语)。我可以根据自己的数据收集训练机器以获得更准确的结果吗?以及如何实现这一点?
除了 Google Vision API 的 TEXT_DETECTION 之外,Google 还有使用 Tesseract 依赖项的 Google 光学字符识别 (OCR) 软件。据我所知,他们有不同的算法来检测文本。我使用 Google Docs 和 Google Vision API 的 TEXT_DETECTION 从图片中读取文本(越南语)。Google Docs 给出了很好的结果,但 Vision API 没有。为什么 Google Vision API 没有继承 Google OCR 的优势?
我想多说一些关于 Google Vision API 文本检测的内容,也许这里有任何 Google 专家都可以阅读。正如谷歌宣布的那样,他们的 TEXT_DETECTION 非常棒:“即使这张图片中的文字倾斜且不清楚,OCR 仍能正确提取文字及其位置。它甚至可以在演示者的 T 恤上提取“信标”这个词。但是对于我的一些照片,发生的事情真的很有趣。例如这张照片,即使“Kem Oxit”字样在照片中央很大,也无法识别。或者在这张图片中,图片中心的红色文字“HOA CHAT NGOC VIET”也没有被识别。文本检测算法一定有问题。