如何将hOCR转换为 HTML 进行可视化?
如果您打开原始 hOCR 文件,它仅呈现为纯文本(元素未定位)
这项任务有不同的解决方案,我知道这三个:
https://github.com/kba/hocrjs(在图像上覆盖 hocr 数据,不同的选项如何显示)
https://github.com/not-implemented/hocr-proofreader(左侧显示图像,右侧显示 hocr 数据,可用于输入更正)
所有这些 repos 似乎主要由一些 JavaScript 和 CSS 文件组成。前两个 repos 都有一个链接到我从中拍摄照片的一些演示页面。
第一个提供了一个 Greasemonkey/Tampermonkey 脚本,它允许在任何合适的在线和本地 hocr 网站上注入这个覆盖(一些配置可能是可能的)。我不知道将其他解决方案用于您自己的 hocr 文件有多么困难,但它应该是可行的。
要将接口添加到普通的 hOCR 文件,请在结束标记之前添加以下行:
<script src="https://unpkg.com/hocrjs"></script>
然后在浏览器中打开 html (hOCR) 文件。
hOCR 是 HTML。您可以在网络浏览器中查看它。