Google Cloud Vision API(测试版)版本 1 允许通过 TEXT_DETECTION 请求进行光学字符识别。虽然识别质量很好,但返回的字符没有任何原始布局的提示。因此,结构化文本(例如,表格、收据、列式数据)有时会被错误地排序。
是否可以使用 Google Cloud Vision API 保留文档结构?tesseract 和 hOCR 也有类似的问题。例如,[1] 和 [2]。目前在文档 [3] 中没有关于 TEXT_DETECTION 选项的信息。
[1]如何在 tesseract 中保留文档结构 [2] Tesseract - 空间和选项卡中的歧义 [3] https://cloud.google.com/vision/