问题标签 [tesseract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
864 浏览

iphone - iPhone Tesseract 库错误

我从这里克隆了 tesseract 代码并为 4.3 构建了 iphone OCR 演示

我知道之前 tesseract 存在一些问题,但我认为我的问题不一样。

该应用程序启动正常(模拟器),并在单击“显示图像选择器”按钮时UIImagePicker出现允许我选择图像。选择图像会显示“OCRDEMO - 工作”警报 1-2 秒,然后应用程序崩溃,调试器输出如下:

检测到尝试调用 iPhone 上不存在的系统库中的符号:clock$UNIX2003 从图像 OCRDemo 中的函数 _Z17edges_and_textordPKcP10BLOCK_LIST 调用。如果您在 gdb 中运行模拟器二进制文件时遇到此问题,请确保首先“设置 start-with-shell off”。

我不完全知道如何“设置 start-with-shell off”并没有帮助

我担心这是 4.3 引起的问题,因为对错误关键组件的搜索不足。

0 投票
0 回答
550 浏览

c++ - 使用 Tesseract 3.0 获取图像块

我试图通过调用 SegmentPage() 函数(在 tesseractclass.h 中声明并在 pagesegmain.cpp 中定义)来获取图像块,但它只返回“文本块”......

我如何也可以获得图像块?

感谢您的回答。

伊莲

0 投票
1 回答
3258 浏览

android - 使用 tesseract 使用 android 提取图像中的文本时出错

我使用 android tesseract 工具为 android 构建了 tesseract ocr,一切正常。我还得到了库文件。当我尝试使用 java 包装器访问本机方法时,设备崩溃了。我在相机回调中直接使用 tesseract。

代码看起来像这样:

tba.getUTF8Text()我在设备崩溃时检查了日志 cat still setimage 它工作正常。

0 投票
1 回答
6857 浏览

android - Android中图像字节表示的每像素字节值

我目前正在编写一个需要在其中使用 OCR 的 Android 应用程序。

为了实现这一点,我将 Tesseract 与tesseract-android-tools 项目结合使用。

我已经设法让 Tesseract API 进行初始化,并且需要使用以下 setImage 函数:

我正在努力解决的是如何获得 bpp(每像素字节数)和 bpl(每行字节数)的正确值。有谁知道我怎样才能得到这些值?目前我已经在其中放置了相当随机的值,并相信它会在以后导致错误。

我应该注意到,该应用程序还使用 JavaCV 进行图像识别,它可以很好地识别图像,并且我在这个 tesseract 调用中使用了相同的图像数据源。

谢谢。

0 投票
1 回答
481 浏览

performance - 加速 tessearct

我一直在 linux 上使用 tesseract (Ver 3) 从扫描的 pdf 文件中提取文本。整个过程很慢的问题,很慢。例如,提取这个 (http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20 页文档需要 514 秒(8+ 分钟)

转换我使用 Image Magick 转换应用程序的 pdf。在我使用的 set 命令下方。

转换 -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

请注意,需要 288 dpi,否则 tesseract 无法从我测试的扫描文件中提取文本。

有谁知道我如何在不影响结果质量的情况下加快速度?

0 投票
2 回答
4232 浏览

python - 从 OCR 文本中提取分段符?

我正在尝试从 OCR 图像文本的输出中重新创建段落和缩进,如下所示:

输入(想象这是一张图片,不是输入的):

在此处输入图像描述

输出(有一些错误):

在此处输入图像描述

如您所见,没有保留段落分隔符或缩进。

使用 Python,我尝试了这样的方法,但它不起作用(经常失败):

代码

有人对我如何重新创建此布局有任何建议吗?我正在处理旧书,所以我希望用 LaTeX 重新排版它们,因为创建 Python 脚本来做到这一点非常简单。

谢谢!

0 投票
2 回答
2289 浏览

android - Android : 捕捉 SIGSEGV 信号 JNI

我正在使用 tesseract 项目将图像转换为字符串。但是,SIGSEGV 信号是从他的 JNI 发送的(随机?)。

我想在发送信号时重新启动我的应用程序,但我没有找到任何解决方案来使用 Java“捕获”信号。

有人有建议吗?

谢谢

0 投票
1 回答
433 浏览

iphone - 该应用程序在 iOS 4.1+ 中崩溃,但在 4.0 中成功运行

我有一个应用程序,它使用一些 3rd 方库,例如 Tesseract 库。该应用程序是在 Xcode 3 中使用 SDK 4.0 开发的,并且运行良好。但是几天前我决定升级我的 Xcode 和 SDK。所以我安装了 XCode 4.0.2 和 SDK 4.3。当然,升级后我已经使用 SDK 4.3 重建了所有依赖库,包括 Tesseract。构建过程中没有错误。一切都与在 SDK 4.0 下构建时一样。但是当我在模拟器(4.1、4.2、4.3)下运行应用程序时,出现以下错误:

检测到尝试调用 iPhone 上不存在的系统库中的符号:从图像 APP_NAME 中的函数 _ZN9tesseract15TessdataManager4InitEPKci 调用的 fopen$UNIX2003。如果您在 gdb 中运行模拟器二进制文件时遇到此问题,请确保首先“设置 start-with-shell off”。

我还在使用 ios 4.3 的设备下进行了尝试,该应用程序只是在同一个地方崩溃。

但该应用程序继续在模拟器/设备 4.0 下成功运行。

有谁知道问题是什么以及如何使我的应用程序在 ios 4.1+ 下运行?

0 投票
1 回答
1416 浏览

ios - Tesseract iOS 的英语以外的语言

我正在尝试使用 Tesseract Open source code 来查看是否可以在 iPhone 上编译和识别英文字符。我能够这样做。现在我尝试在 tessdata 中包含“ita.traineddata”并进行更改

但我收到此错误: Error openning data file /var/mobile/Applications/A37DB8B7-2272-4F80-9836-0034CEB56CC5/Documents/tessdata/ita.traineddata

我错过了什么,应该如何处理?

0 投票
1 回答
2005 浏览

iphone - 为 XCODE 项目(IPHONE)配置 tesseract

我已经下载了 tesseract,对其进行了配置并获得了一些 .a 文件。但是在添加框架文件并运行我的 XCODE 项目之后,它从框架库中给出了很多错误???!!

谁能详细解释一下安装和配置 tesseract 以使用 xcode 的步骤?