非常感谢快速帮助。我正在通过 tesseract-OCR 从 tiff 图像中提取文本。我正在寻找的输出是.HOCR (HTML)。我在内容方面得到了完美的输出,但格式看起来非常杂乱无章。但是当我用记事本++打开时,它给出了一个干净的格式。
windows命令行如下
Tesseract "Path\image.tiff" "Path\output" HOCR
需要您的帮助才能在记事本中获得有组织的 hocr 格式,如下所示
非常感谢快速帮助。我正在通过 tesseract-OCR 从 tiff 图像中提取文本。我正在寻找的输出是.HOCR (HTML)。我在内容方面得到了完美的输出,但格式看起来非常杂乱无章。但是当我用记事本++打开时,它给出了一个干净的格式。
windows命令行如下
Tesseract "Path\image.tiff" "Path\output" HOCR
需要您的帮助才能在记事本中获得有组织的 hocr 格式,如下所示