问题标签 [hocr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ocr - Tesseract 的 hOCR 输出是否真的包含每个字符的边界框和置信度?
在Tesseract 常见问题解答中,他们说您可以:
如何获得每个角色的坐标和置信度?
有两种选择。如果您不想进入编程领域,可以使用 Tesseract 的 hocr 输出格式(详细信息请阅读 Tesseract 手册页)。
但是当我创建一个示例 hOCR 输出(它是一个 .html 文件)时,边界框和置信度仅在 word 级别可用。
我在这里错过了什么吗?
我添加了示例输入/输出作为插图(输入已调整大小)。
这是输入图像:
这是 Tesseract 的 hOCR 输出:
ocr - 使用 OCR 引擎 tesseract 无法理解提取文档中的坐标
我已经从 tesseract 中提取了一个图像文档,并且它已成功提取。但我无法理解提取文档的坐标。
问题描述: -
它显示坐标,但让我知道这些坐标代表像素或其他东西。它们有四个,如title="bbox 10 13 43 46",那么 10、13 43 和 46 是什么。它们代表什么位置
解压后完整代码
image - Tesseract hOCR:如何检测倒置?
(我将在这里回答我自己的问题以获取一般知识)
在 Tesseract OCR 中,如何检测倒置的图像?
使用过 Tesseract 的人可能知道,也可能不知道 Tesseract可以读取倒置的图像。
然而,问题在于,如果您使用 hOCR 输出,您不知道它是颠倒的,因为文档中没有提到它。
那么如何检测呢?
ios - 正方体 hOCR iOS
我正在学习如何使用 Tesseract API,我对 hOCR 输出函数很感兴趣。目前我正在使用此代码扫描图像。
一切都编译得很好,但我想知道如何存储 hOCR 函数返回的 .html 。我可以将它存储在变量中吗?生成该文件后,我需要能够在我的程序中访问该文件。任何有关如何在 iOS 上使用 hOCR 的见解都值得赞赏。
ocr - 如何使用 Tesseract 分割文档然后输出生成的边界框和标签
我试图让 Tesseract 输出一个带有标签边界框的文件,这些边界框是由页面分割(预 OCR)产生的。我知道它必须能够“开箱即用”地做到这一点,因为在 ICDAR 比赛中展示了参赛者必须分割的结果和各种文件(此处为学术论文)。这是该论文中的一个示例,说明了我想要创建的内容:
我已经使用 brew 构建了最新版本的 tesseract brew install tesseract --HEAD
,并且一直在尝试编辑位于/usr/local/Cellar/tesseract/HEAD/share/tessdata/configs/
输出标记框的配置文件。使用hocr
作为配置接收的输出,即
为所有内容提供一个边界框,并在标签中有一些标签,class
例如
但我无法想象这一点。是否有可视化 hOCR 文件的标准工具,或者是否可以使用 Tesseract 中内置的边界框创建输出文件?
当前头部版本详情:
编辑
我真的很想使用命令行工具来实现这一点(如上例所示)。@nguyenq 已将我指向API 参考,不幸的是我没有 C++ 经验。如果唯一的解决方案是使用 API,请您提供一个快速的 Python 示例吗?
python - 将 hOCR 转换为 HTML 表格
我正在寻找一种在 python 中实现的工具或想法,它将 hOCR 文件(由应用程序中的 tesseract 生成)转换为 html 表。这个想法是利用 hOCR 文件中的文本位置信息(在 bbox 属性中提供)来创建一个基于提供的位置的表。我提供了一个例子来解释上述想法:
我使用 SlideShare.net 中的这张图片作为我使用 tesseract 的应用程序的输入,我得到了下面的 hOCR/xml 文件作为输出。
hOCR 文件:
我需要的是根据下一个位置将 hOCR 文件转换为 html 表。预期的表应类似于此表。
表格单元格的大小和位置反映了 hOCR 文件中提供的信息。
图片来源:slideshare.net
tesseract - 如何使用 python-tesseract 获取 Hocr 输出
我使用 pytesseract 得到了非常好的结果,但它不能保留双空格,它们对我来说真的很重要。而且,所以我决定检索 hocr 输出而不是纯文本。但是;似乎没有任何方法可以使用 pytessearct 指定配置文件。
那么,是否可以使用 pytesseract 指定配置文件,或者是否有一些默认配置文件可以更改以获取 hocr 输出?
pdf - 如何获取 tesseract 为 pdf 文件创建的隐藏文本布局?
我对ocr没有太多经验。这是我尝试的方法:
tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf
结果是结构完美的隐藏文本布局 - 搜索 pdf 时,单词在它们的确切位置。我的问题是:我可以将此布局作为文件(hocr 或 html)吗?(首选配置参数,而不是 API。)
我试过的:
tesseract -l eng -psm 1 image_str007_0001.jpg 输出 hocr
和
hocr2pdf -i image_str007_001 -o output.pdf < output.hocr
在文件 output.pdf 中,在搜索文本时,这些单词的排列非常错误。命令 2. 是否不适合创建 tesseract hocr 布局文件,或者 hocr2pdf 应用程序无法正确创建 pdf?
html - HOCR 到 HTML 用于可视化
如何将hOCR转换为 HTML 进行可视化?
如果您打开原始 hOCR 文件,它仅呈现为纯文本(元素未定位)
c# - c# 使用charlesw tesseract生成hocr文件
目前我需要将 tessdata 的位置动态添加到环境变量中并运行我的代码
然后我找到了 tesseract 包装器。如何使用包装器生成 hocr 文件?我找不到如何做的例子。
这是我正在使用的当前代码(来自示例),但如何输出 hocr 文件?