python - 使用 Python 将 hOCR 解析为 JSON

翻译自：https://stackoverflow.com/questions/51421283 2018-07-19T11:16:36.490

2901 次

1

我正在使用 tesseract-ocr 并以 hOCR 格式获取输出。我需要将此 hOCR 输出存储到数据库中（在我的例子中是 PostgreSQL）。

由于我可能需要单独来自此 hOCR 的每条信息（其中 80%），这将是正确的方法？它应该存储为 XML 数据类型还是解析为 JSON 并存储？如果是 JSON，如何使用 Python 将此 hOCR 解析为 JSON。其他相关建议也值得赞赏。

1 回答 1

3

hOCR 似乎是 XML 的一种方言，因此您应该能够使用xml.etree stdlib 中的模块将 hOCR 代码解析为 Python 可导航树。然后导航该树以组成一个对象或嵌套字典，最后使用 stdlib 的json模块将该字典转换为 JSON。

于 2018-07-19T15:37:11.617 回答