google-cloud-vision - 可以使用 Google Cloud Vision TEXT_DETECTION 保留文本结构吗？

Question

Google Cloud Vision API（测试版）版本 1 允许通过 TEXT_DETECTION 请求进行光学字符识别。虽然识别质量很好，但返回的字符没有任何原始布局的提示。因此，结构化文本（例如，表格、收据、列式数据）有时会被错误地排序。

是否可以使用 Google Cloud Vision API 保留文档结构？tesseract 和 hOCR 也有类似的问题。例如，[1] 和 [2]。目前在文档 [3] 中没有关于 TEXT_DETECTION 选项的信息。

score 2 · Accepted Answer

识别文本结构是一个比识别文本本身更抽象的概念：字母、单词、句子。如果您的文件元数据中已经有此文本结构信息，您可以执行以下操作：

我不是 Cloud Vision text_detection API 方面的专家，但它写的是 text_detection 而不是 language_detection 或 text_structure_detection，因此它提供了一些关于检测级别/层的小线索。

也许这是他们计划在未来添加或在文档中描述的功能。

1 回答 1