问题标签 [hocr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
12 浏览

python - OCRmyPDF 的 hOCR 输出

我正在运行 OCRmyPDF 从扫描的 PDF 创建可搜索的 PDF,它对我来说工作得很好。我只想将扫描的 PDF 的每一页的 hOCR 输出也保存在我的本地目录中。我怎样才能做到这一点?

0 投票
1 回答
23 浏览

windows - Windows Tesseract OCR 输出分散的 HOCR 而不是干净的标准格式

非常感谢快速帮助。我正在通过 tesseract-OCR 从 tiff 图像中提取文本。我正在寻找的输出是.HOCR (HTML)。我在内容方面得到了完美的输出,但格式看起来非常杂乱无章。但是当我用记事本++打开时,它给出了一个干净的格式。

windows命令行如下

需要您的帮助才能在记事本中获得有组织的 hocr 格式,如下所示

使用记事本打开时如何获得有组织的 hocr记事本中的输出格式数据? 记事本中的当前输出 notepad ++中无组织数据的显示

0 投票
0 回答
17 浏览

windows - pytesseract 进程 Tif 到 hocr 输出获取输入文件错误

我正在将 D 驱动器中的 tiff 图像提取为 .hocr 格式并在 D 驱动器中输出。

下面是我的代码

就我而言,代码位于带有输入图像和输出文件夹的 D 驱动器上。

错误:

pytesseract.pytesseract.TesseractError: (1, '错误,无法读取输入文件 D:\image.tif: Invalid argument Error during processing.')

什么地方出了错?我是这个程序的初学者。

我已经用cv2.imshow('sample image',img)它显示的示例 JPG 图像进行了测试。

我试图以不同的方式修改代码,但即使它有错误

` 错误

帮助表示赞赏。

0 投票
0 回答
27 浏览

python-3.x - 来自 TIFF 图像的 OCR:仅从第一页获取输出

我是初学者,需要您回答下面代码中的 3 个问题。

  1. 我只从多页 tiff 的第一页获取输出

  2. 在哪里使用 --OEM 3 和 --psm 6 以获得正确的输出。

  3. 使用什么额外的代码来获得 HOCR 输出。

    '''

    from PIL import Image import pytesseract as pt import os pt.pytesseract.tesseract_cmd = r'C:\Users\admin\AppData\Local\Programs\Tesseract- OCR\tesseract.exe' def main(): # 文件夹路径获取原始图像路径 =“D:\folder1\tiff”

    如果名称== '主要': main()

'''