我正在尝试使用 Google Vision API 文本检测功能,并尝试对文本图像执行 OCR。文本图像非常干净,80% 的时间都有效。20% 的错误包括误解的数字/字符(可修复),以及一些根本不显示的单词/数字(不可修复!)。
我遵循了最佳实践页面提示(图像为 1024x768,16 位 PNG)但无济于事。
这是一个示例:此示例页面 https://storage.googleapis.com/ximian-cloud.appspot.com/sample_page.png
有一个数字 177(根据观察,“RT ARM”的右侧),API 根本没有检测到这......
我试过了:
- 两倍分辨率 (2048 x 1536)
- BMP 24 位
- BMP 32 位
- 以上所有,灰度
- 以上所有内容,倒置(黑色背景和白色字母)
没运气 ...
关于为什么会发生这种情况的任何提示?是 API 还是我的图像格式可以使用某些格式?