1

我正在使用 tesseract-ocr 并以 hOCR 格式获取输出。我需要将此 hOCR 输出存储到数据库中(在我的例子中是 PostgreSQL)。

由于我可能需要单独来自此 hOCR 的每条信息(其中 80%),这将是正确的方法?它应该存储为 XML 数据类型还是解析为 JSON 并存储?如果是 JSON,如何使用 Python 将此 hOCR 解析为 JSON。其他相关建议也值得赞赏。

4

1 回答 1

3

hOCR 似乎是 XML 的一种方言,因此您应该能够使用xml.etree stdlib 中的模块将 hOCR 代码解析为 Python 可导航树。然后导航该树以组成一个对象或嵌套字典,最后使用 stdlib 的json模块将该字典转换为 JSON。

于 2018-07-19T15:37:11.617 回答