windows - Windows Tesseract OCR 输出分散的 HOCR 而不是干净的标准格式

Question

非常感谢快速帮助。我正在通过 tesseract-OCR 从 tiff 图像中提取文本。我正在寻找的输出是.HOCR (HTML)。我在内容方面得到了完美的输出，但格式看起来非常杂乱无章。但是当我用记事本++打开时，它给出了一个干净的格式。

windows命令行如下

Tesseract "Path\image.tiff" "Path\output" HOCR

需要您的帮助才能在记事本中获得有组织的 hocr 格式，如下所示

使用记事本打开时如何获得有组织的 hocr数据？

score 0 · Accepted Answer

问题不在 tesseract 中，而在记事本中。使用一些普通的文本编辑器，如notepad++或context。

1 回答 1