0

非常感谢快速帮助。我正在通过 tesseract-OCR 从 tiff 图像中提取文本。我正在寻找的输出是.HOCR (HTML)。我在内容方面得到了完美的输出,但格式看起来非常杂乱无章。但是当我用记事本++打开时,它给出了一个干净的格式。

windows命令行如下

Tesseract "Path\image.tiff" "Path\output" HOCR

需要您的帮助才能在记事本中获得有组织的 hocr 格式,如下所示

使用记事本打开时如何获得有组织的 hocr记事本中的输出格式数据? 记事本中的当前输出 notepad ++中无组织数据的显示

4

1 回答 1

0

问题不在 tesseract 中,而在记事本中。使用一些普通的文本编辑器,如notepad++context

于 2022-02-09T12:24:43.837 回答