问题标签 [hocr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
14739 浏览

ocr - Tesseract 的 hOCR 输出是否真的包含每个字符的边界框和置信度?

Tesseract 常见问题解答中,他们说您可以:

如何获得每个角色的坐标和置信度?

有两种选择。如果您不想进入编程领域,可以使用 Tesseract 的 hocr 输出格式(详细信息请阅读 Tesseract 手册页)。

但是当我创建一个示例 hOCR 输出(它是一个 .html 文件)时,边界框和置信度仅在 word 级别可用。

我在这里错过了什么吗?

我添加了示例输入/输出作为插图(输入已调整大小)。


这是输入图像:

在此处输入图像描述


这是 Tesseract 的 hOCR 输出:

0 投票
3 回答
5328 浏览

ocr - 使用 OCR 引擎 tesseract 无法理解提取文档中的坐标

我已经从 tesseract 中提取了一个图像文档,并且它已成功提取。但我无法理解提取文档的坐标。

问题描述: -

它显示坐标,但让我知道这些坐标代表像素或其他东西。它们有四个,如title="bbox 10 13 43 46",那么 10、13 43 和 46 是什么。它们代表什么位置

解压后完整代码

0 投票
1 回答
1409 浏览

image - Tesseract hOCR:如何检测倒置?

(我将在这里回答我自己的问题以获取一般知识)

在 Tesseract OCR 中,如何检测倒置的图像?
使用过 Tesseract 的人可能知道,也可能不知道 Tesseract可以读取倒置的图像。
然而,问题在于,如果您使用 hOCR 输出,您不知道它是颠倒的,因为文档中没有提到它。

那么如何检测呢?

0 投票
1 回答
601 浏览

ios - 正方体 hOCR iOS

我正在学习如何使用 Tesseract API,我对 hOCR 输出函数很感兴趣。目前我正在使用此代码扫描图像。

一切都编译得很好,但我想知道如何存储 hOCR 函数返回的 .html 。我可以将它存储在变量中吗?生成该文件后,我需要能够在我的程序中访问该文件。任何有关如何在 iOS 上使用 hOCR 的见解都值得赞赏。

0 投票
6 回答
35602 浏览

ocr - 如何使用 Tesseract 分割文档然后输出生成的边界框和标签

我试图让 Tesseract 输出一个带有标签边界框的文件,这些边界框是由页面分割(预 OCR)产生的。我知道它必须能够“开箱即用”地做到这一点,因为在 ICDAR 比赛中展示了参赛者必须分割的结果和各种文件(此处为学术论文)。这是该论文中的一个示例,说明了我想要创建的内容: 分割和标记输出的图像

我已经使用 brew 构建了最新版本的 tesseract brew install tesseract --HEAD,并且一直在尝试编辑位于/usr/local/Cellar/tesseract/HEAD/share/tessdata/configs/输出标记框的配置文件。使用hocr作为配置接收的输出,即

为所有内容提供一个边界框,并在标签中有一些标签,class例如

但我无法想象这一点。是否有可视化 hOCR 文件的标准工具,或者是否可以使用 Tesseract 中内置的边界框创建输出文件?

当前头部版本详情:


编辑

我真的很想使用命令行工具来实现这一点(如上例所示)。@nguyenq 已将我指向API 参考,不幸的是我没有 C++ 经验。如果唯一的解决方案是使用 API,请您提供一个快速的 Python 示例吗?

0 投票
2 回答
5764 浏览

python - 将 hOCR 转换为 HTML 表格

我正在寻找一种在 python 中实现的工具或想法,它将 hOCR 文件(由应用程序中的 tesseract 生成)转换为 html 表。这个想法是利用 hOCR 文件中的文本位置信息(在 bbox 属性中提供)来创建一个基于提供的位置的表。我提供了一个例子来解释上述想法:

我使用 SlideShare.net 中的这张图片作为我使用 tesseract 的应用程序的输入,我得到了下面的 hOCR/xml 文件作为输出。

hOCR 文件:

我需要的是根据下一个位置将 hOCR 文件转换为 html 表。预期的表应类似于此表

表格单元格的大小和位置反映了 hOCR 文件中提供的信息。

图片来源:slideshare.net

0 投票
3 回答
12905 浏览

tesseract - 如何使用 python-tesseract 获取 Hocr 输出

我使用 pytesseract 得到了非常好的结果,但它不能保留双空格,它们对我来说真的很重要。而且,所以我决定检索 hocr 输出而不是纯文本。但是;似乎没有任何方法可以使用 pytessearct 指定配置文件。

那么,是否可以使用 pytesseract 指定配置文件,或者是否有一些默认配置文件可以更改以获取 hocr 输出?

0 投票
0 回答
427 浏览

pdf - 如何获取 tesseract 为 pdf 文件创建的隐藏文本布局?

我对ocr没有太多经验。这是我尝试的方法:

  1. tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf

    结果是结构完美的隐藏文本布局 - 搜索 pdf 时,单词在它们的确切位置。我的问题是:我可以将此布局作为文件(hocr 或 html)吗?(首选配置参数,而不是 API。)

    我试过的:

  2. tesseract -l eng -psm 1 image_str007_0001.jpg 输出 hocr

  1. hocr2pdf -i image_str007_001 -o output.pdf < output.hocr

    在文件 output.pdf 中,在搜索文本时,这些单词的排列非常错误。命令 2. 是否不适合创建 tesseract hocr 布局文件,或者 hocr2pdf 应用程序无法正确创建 pdf?

0 投票
3 回答
9735 浏览

html - HOCR 到 HTML 用于可视化

如何将hOCR转换为 HTML 进行可视化?

如果您打开原始 hOCR 文件,它仅呈现为纯文本(元素未定位)

0 投票
1 回答
998 浏览

c# - c# 使用charlesw tesseract生成hocr文件

我如何在这里使用 tesseract 包装器生成 hocr

目前我需要将 tessdata 的位置动态添加到环境变量中并运行我的代码

然后我找到了 tesseract 包装器。如何使用包装器生成 hocr 文件?我找不到如何做的例子。

这是我正在使用的当前代码(来自示例),但如何输出 hocr 文件?