问题标签 [hocr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - OCRmyPDF 的 hOCR 输出
我正在运行 OCRmyPDF 从扫描的 PDF 创建可搜索的 PDF,它对我来说工作得很好。我只想将扫描的 PDF 的每一页的 hOCR 输出也保存在我的本地目录中。我怎样才能做到这一点?
windows - pytesseract 进程 Tif 到 hocr 输出获取输入文件错误
我正在将 D 驱动器中的 tiff 图像提取为 .hocr 格式并在 D 驱动器中输出。
下面是我的代码
就我而言,代码位于带有输入图像和输出文件夹的 D 驱动器上。
错误:
pytesseract.pytesseract.TesseractError: (1, '错误,无法读取输入文件 D:\image.tif: Invalid argument Error during processing.')
什么地方出了错?我是这个程序的初学者。
我已经用cv2.imshow('sample image',img)
它显示的示例 JPG 图像进行了测试。
我试图以不同的方式修改代码,但即使它有错误
` 错误
帮助表示赞赏。
python-3.x - 来自 TIFF 图像的 OCR:仅从第一页获取输出
我是初学者,需要您回答下面代码中的 3 个问题。
我只从多页 tiff 的第一页获取输出
在哪里使用 --OEM 3 和 --psm 6 以获得正确的输出。
使用什么额外的代码来获得 HOCR 输出。
'''
from PIL import Image import pytesseract as pt import os pt.pytesseract.tesseract_cmd = r'C:\Users\admin\AppData\Local\Programs\Tesseract- OCR\tesseract.exe' def main(): # 文件夹路径获取原始图像路径 =“D:\folder1\tiff”
如果名称== '主要': main()
'''