Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在 Windows 7 上安装 tesseract-ocr v3.02.02,并通过命令行使用它:
1) 将 png 文本输出到文本文件:tesseract image.png txtfile 2) 将 png 文本输出到 html 文件:tesseract image.png htmlfile hocr
我需要它能够标记输出文本或 html 文件中的任何斜体文本。我该怎么做(最好在命令行上——从未在 API 模式下使用过)?
Tesseract的hocr输出仅包括单词坐标和置信度值,不包括字体相关信息。因此,您需要修改源代码以在命令行模式下输出您想要的内容,或者使用它的 API。
hocr