4

Google Cloud Vision API(测试版)版本 1 允许通过 TEXT_DETECTION 请求进行光学字符识别。虽然识别质量很好,但返回的字符没有任何原始布局的提示。因此,结构化文本(例如,表格、收据、列式数据)有时会被错误地排序。

是否可以使用 Google Cloud Vision API 保留文档结构?tesseract 和 hOCR 也有类似的问题。例如,[1] 和 [2]。目前在文档 [3] 中没有关于 TEXT_DETECTION 选项的信息。

[1]如何在 tesseract 中保留文档结构 [2] Tesseract - 空间和选项卡中的歧义 [3] https://cloud.google.com/vision/

4

1 回答 1

2

识别文本结构是一个比识别文本本身更抽象的概念:字母、单词、句子。如果您的文件元数据中已经有此文本结构信息,您可以执行以下操作:

  • 在子部分中分割/划分您的输入图像。
  • 执行您的 text_detection 请求。
  • 根据您的元数据正确地重新排序您的文本。

我不是 Cloud Vision text_detection API 方面的专家,但它写的是 text_detection 而不是 language_detection 或 text_structure_detection,因此它提供了一些关于检测级别/层的小线索。

也许这是他们计划在未来添加或在文档中描述的功能。

于 2016-02-20T16:33:05.320 回答