问题标签 [hocr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

34 问题

0 投票

0 回答

12 浏览

python - OCRmyPDF 的 hOCR 输出

我正在运行 OCRmyPDF 从扫描的 PDF 创建可搜索的 PDF，它对我来说工作得很好。我只想将扫描的 PDF 的每一页的 hOCR 输出也保存在我的本地目录中。我怎样才能做到这一点？

2022-01-28T06:22:59.463

0 投票

1 回答

23 浏览

windows - Windows Tesseract OCR 输出分散的 HOCR 而不是干净的标准格式

非常感谢快速帮助。我正在通过 tesseract-OCR 从 tiff 图像中提取文本。我正在寻找的输出是.HOCR (HTML)。我在内容方面得到了完美的输出，但格式看起来非常杂乱无章。但是当我用记事本++打开时，它给出了一个干净的格式。

windows命令行如下

需要您的帮助才能在记事本中获得有组织的 hocr 格式，如下所示

使用记事本打开时如何获得有组织的 hocr数据？

windows command-line ocr tesseract hocr

2022-02-09T08:40:34.607

0 投票

0 回答

17 浏览

windows - pytesseract 进程 Tif 到 hocr 输出获取输入文件错误

我正在将 D 驱动器中的 tiff 图像提取为 .hocr 格式并在 D 驱动器中输出。

下面是我的代码

就我而言，代码位于带有输入图像和输出文件夹的 D 驱动器上。

错误：

pytesseract.pytesseract.TesseractError: (1, '错误，无法读取输入文件 D:\image.tif: Invalid argument Error during processing.')

什么地方出了错？我是这个程序的初学者。

我已经用cv2.imshow('sample image',img)它显示的示例 JPG 图像进行了测试。

我试图以不同的方式修改代码，但即使它有错误

` 错误

帮助表示赞赏。

windows ocr python-tesseract hocr

2022-02-10T12:52:20.697

0 投票

0 回答

27 浏览

python-3.x - 来自 TIFF 图像的 OCR：仅从第一页获取输出

我是初学者，需要您回答下面代码中的 3 个问题。

我只从多页 tiff 的第一页获取输出
在哪里使用 --OEM 3 和 --psm 6 以获得正确的输出。
使用什么额外的代码来获得 HOCR 输出。

'''

from PIL import Image import pytesseract as pt import os pt.pytesseract.tesseract_cmd = r'C:\Users\admin\AppData\Local\Programs\Tesseract- OCR\tesseract.exe' def main(): # 文件夹路径获取原始图像路径 =“D:\folder1\tiff”

如果名称== '主要': main()

'''

python-3.x ocr tesseract tiff hocr

2022-02-17T17:49:37.190

1 2 3 4 5 6 7 8 9 10

问题标签 [hocr]

python - OCRmyPDF 的 hOCR 输出

windows - Windows Tesseract OCR 输出分散的 HOCR 而不是干净的标准格式

windows - pytesseract 进程 Tif 到 hocr 输出获取输入文件错误

python-3.x - 来自 TIFF 图像的 OCR：仅从第一页获取输出

Reference