0

在 Windows 7 上安装 tesseract-ocr v3.02.02,并通过命令行使用它:

1) 将 png 文本输出到文本文件:tesseract image.png txtfile 2) 将 png 文本输出到 html 文件:tesseract image.png htmlfile hocr

我需要它能够标记输出文本或 html 文件中的任何斜体文本。我该怎么做(最好在命令行上——从未在 API 模式下使用过)?

4

1 回答 1

0

Tesseract的hocr输出仅包括单词坐标和置信度值,不包括字体相关信息。因此,您需要修改源代码以在命令行模式下输出您想要的内容,或者使用它的 API。

于 2014-09-26T17:24:27.120 回答