问题标签 [tesseract]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3986 问题

0 投票

1 回答

864 浏览

iphone - iPhone Tesseract 库错误

我从这里克隆了 tesseract 代码并为 4.3 构建了 iphone OCR 演示

我知道之前 tesseract 存在一些问题，但我认为我的问题不一样。

该应用程序启动正常（模拟器），并在单击“显示图像选择器”按钮时UIImagePicker出现允许我选择图像。选择图像会显示“OCRDEMO - 工作”警报 1-2 秒，然后应用程序崩溃，调试器输出如下：

检测到尝试调用 iPhone 上不存在的系统库中的符号：clock$UNIX2003 从图像 OCRDemo 中的函数 _Z17edges_and_textordPKcP10BLOCK_LIST 调用。如果您在 gdb 中运行模拟器二进制文件时遇到此问题，请确保首先“设置 start-with-shell off”。

我不完全知道如何“设置 start-with-shell off”并没有帮助

我担心这是 4.3 引起的问题，因为对错误关键组件的搜索不足。

2011-04-17T10:13:34.353

0 投票

0 回答

550 浏览

c++ - 使用 Tesseract 3.0 获取图像块

我试图通过调用 SegmentPage() 函数（在 tesseractclass.h 中声明并在 pagesegmain.cpp 中定义）来获取图像块，但它只返回“文本块”......

我如何也可以获得图像块？

感谢您的回答。

伊莲

c++ocr tesseract image-segmentation

2011-04-22T11:55:15.470

0 投票

1 回答

3258 浏览

android - 使用 tesseract 使用 android 提取图像中的文本时出错

我使用 android tesseract 工具为 android 构建了 tesseract ocr，一切正常。我还得到了库文件。当我尝试使用 java 包装器访问本机方法时，设备崩溃了。我在相机回调中直接使用 tesseract。

代码看起来像这样：

tba.getUTF8Text()我在设备崩溃时检查了日志 cat still setimage 它工作正常。

android tesseract

2011-04-26T05:48:33.147

0 投票

1 回答

6857 浏览

android - Android中图像字节表示的每像素字节值

我目前正在编写一个需要在其中使用 OCR 的 Android 应用程序。

为了实现这一点，我将 Tesseract 与tesseract-android-tools 项目结合使用。

我已经设法让 Tesseract API 进行初始化，并且需要使用以下 setImage 函数：

我正在努力解决的是如何获得 bpp（每像素字节数）和 bpl（每行字节数）的正确值。有谁知道我怎样才能得到这些值？目前我已经在其中放置了相当随机的值，并相信它会在以后导致错误。

我应该注意到，该应用程序还使用 JavaCV 进行图像识别，它可以很好地识别图像，并且我在这个 tesseract 调用中使用了相同的图像数据源。

谢谢。

android ocr tesseract

2011-05-01T23:55:42.010

0 投票

1 回答

481 浏览

performance - 加速 tessearct

我一直在 linux 上使用 tesseract (Ver 3) 从扫描的 pdf 文件中提取文本。整个过程很慢的问题，很慢。例如，提取这个 (http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20 页文档需要 514 秒（8+ 分钟）

转换我使用 Image Magick 转换应用程序的 pdf。在我使用的 set 命令下方。

转换 -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

请注意，需要 288 dpi，否则 tesseract 无法从我测试的扫描文件中提取文本。

有谁知道我如何在不影响结果质量的情况下加快速度？

performance pdf imagemagick tesseract

2011-05-02T15:20:28.100

0 投票

2 回答

4232 浏览

python - 从 OCR 文本中提取分段符？

我正在尝试从 OCR 图像文本的输出中重新创建段落和缩进，如下所示：

输入（想象这是一张图片，不是输入的）：

在此处输入图像描述

输出（有一些错误）：

在此处输入图像描述

如您所见，没有保留段落分隔符或缩进。

使用 Python，我尝试了这样的方法，但它不起作用（经常失败）：

代码：

有人对我如何重新创建此布局有任何建议吗？我正在处理旧书，所以我希望用 LaTeX 重新排版它们，因为创建 Python 脚本来做到这一点非常简单。

谢谢！

python latex ocr tesseract

2011-05-08T04:20:22.280

0 投票

2 回答

2289 浏览

android - Android : 捕捉 SIGSEGV 信号 JNI

我正在使用 tesseract 项目将图像转换为字符串。但是，SIGSEGV 信号是从他的 JNI 发送的（随机？）。

我想在发送信号时重新启动我的应用程序，但我没有找到任何解决方案来使用 Java“捕获”信号。

有人有建议吗？

谢谢

android java-native-interface signals segmentation-fault tesseract

2011-05-24T13:35:59.380

0 投票

1 回答

433 浏览

iphone - 该应用程序在 iOS 4.1+ 中崩溃，但在 4.0 中成功运行

我有一个应用程序，它使用一些 3rd 方库，例如 Tesseract 库。该应用程序是在 Xcode 3 中使用 SDK 4.0 开发的，并且运行良好。但是几天前我决定升级我的 Xcode 和 SDK。所以我安装了 XCode 4.0.2 和 SDK 4.3。当然，升级后我已经使用 SDK 4.3 重建了所有依赖库，包括 Tesseract。构建过程中没有错误。一切都与在 SDK 4.0 下构建时一样。但是当我在模拟器（4.1、4.2、4.3）下运行应用程序时，出现以下错误：

检测到尝试调用 iPhone 上不存在的系统库中的符号：从图像 APP_NAME 中的函数 _ZN9tesseract15TessdataManager4InitEPKci 调用的 fopen$UNIX2003。如果您在 gdb 中运行模拟器二进制文件时遇到此问题，请确保首先“设置 start-with-shell off”。

我还在使用 ios 4.3 的设备下进行了尝试，该应用程序只是在同一个地方崩溃。

但该应用程序继续在模拟器/设备 4.0 下成功运行。

有谁知道问题是什么以及如何使我的应用程序在 ios 4.1+ 下运行？

iphone ios ios4 tesseract

2011-05-30T09:22:12.023

0 投票

1 回答

1416 浏览

ios - Tesseract iOS 的英语以外的语言

我正在尝试使用 Tesseract Open source code 来查看是否可以在 iPhone 上编译和识别英文字符。我能够这样做。现在我尝试在 tessdata 中包含“ita.traineddata”并进行更改

至

但我收到此错误： Error openning data file /var/mobile/Applications/A37DB8B7-2272-4F80-9836-0034CEB56CC5/Documents/tessdata/ita.traineddata

我错过了什么，应该如何处理？

ios tesseract

2011-06-01T01:20:20.220

0 投票

1 回答

2005 浏览

iphone - 为 XCODE 项目（IPHONE）配置 tesseract

我已经下载了 tesseract，对其进行了配置并获得了一些 .a 文件。但是在添加框架文件并运行我的 XCODE 项目之后，它从框架库中给出了很多错误？？？！！

谁能详细解释一下安装和配置 tesseract 以使用 xcode 的步骤？

iphone xcode tesseract

2011-06-01T10:16:10.020

1 2 3 4 5 6 7 8 9 10

问题标签 [tesseract]

Reference