我正在使用 tesseract-ocr 并以 hOCR 格式获取输出。我需要将此 hOCR 输出存储到数据库中(在我的例子中是 PostgreSQL)。
由于我可能需要单独来自此 hOCR 的每条信息(其中 80%),这将是正确的方法?它应该存储为 XML 数据类型还是解析为 JSON 并存储?如果是 JSON,如何使用 Python 将此 hOCR 解析为 JSON。其他相关建议也值得赞赏。
我正在使用 tesseract-ocr 并以 hOCR 格式获取输出。我需要将此 hOCR 输出存储到数据库中(在我的例子中是 PostgreSQL)。
由于我可能需要单独来自此 hOCR 的每条信息(其中 80%),这将是正确的方法?它应该存储为 XML 数据类型还是解析为 JSON 并存储?如果是 JSON,如何使用 Python 将此 hOCR 解析为 JSON。其他相关建议也值得赞赏。