问题标签 [tess4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3300 浏览

tesseract - 强制 Tesseract 匹配模式(连续四位数字)

我试图让 Tesseract(使用 Tess4J 包装器)仅匹配特定模式。模式是连续四位数,我认为应该是\d\d\d\d。这是我正在喂 tesseract 的图像的一个非常小的子集(平面图受到限制,所以我很谨慎地发布更多内容): http: //mike724.com/view/a06771

我正在使用以下java代码:

我遇到的问题是 tesseract 似乎不尊重这些配置选项,我仍然在结果中得到文本/单词。我希望只得到房间号(例如 2950)。

0 投票
1 回答
5022 浏览

java - 如何在 Tesseract (Java) 中使用用户词?

我将 Tesseract 用于 OCR 目的,并且我在“ fin.user-words ”中添加了一些额外的单词(我想避免创建一个新的单词列表并用它替换tessdata/fin.word-dawg)。现在,我在命令提示符下成功了:

其中 TestConfig (位于.../tessdata/configs下的 Tesseract 配置文件)抑制系统字典并强制 Tesseract 加载我的话:

参考:http ://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html#_config_files_and_augmenting_with_user_data

我正在尝试在 Java 中复制上述命令行过程,但似乎 Tesseract 忽略了配置选项。这是我正在使用的 Java 代码的一部分:

以下是我能找到的最接近我的问题;但是,我找不到setConfigs方法

强制 Tesseract 匹配模式(连续四位数字)

0 投票
4 回答
3471 浏览

maven - NoSuchFieldError: RESOURCE_PREFIX 与使用 tess4j 的 maven 项目

tess4j 是一个自带库的OCR,我做了一个maven项目来测试它,我确实在eclipse中添加了maven的安装路径。我添加了 M2_HOME、MAVEN_HOME 和 JAVA_HOME 环境变量,

这是我的父母 pom

这是我的孩子 pom

当然,代码(取自 tess4j 示例)

当我启动它时,我得到了这个例外

我不知道这是否与 tess4j 相关或 JNA/JNI 问题,如您所见,我有一个“应该”(以前从未使用过 DLL)使它们工作的插件。

同样在父pom中,我的插件位于插件管理标签之间,我想我应该将它们放在构建标签之间,不是吗?

任何想法?

谢谢。

0 投票
0 回答
2112 浏览

java - 无法获取输入流

我正在尝试使用 tess4j 库,但我不断收到错误消息:

java.lang.UnsatisfiedLinkError: Unable to load library 'tesseract': Can't get InputStream for linux-x86-64/libtesseract.so at com.sun.jna.NativeLibrary.loadLibrary(NativeLibrary.java:271) at com.sun .jna.NativeLibrary.getInstance(NativeLibrary.java:398) 在 com.sun.jna.Library$Handler.(Library.java:147) 在 com.sun.jna.Native.loadLibrary(Native.java:412) 在 com .sun.jna.Native.loadLibrary(Native.java:391) at net.sourceforge.tess4j.util.LoadLibs.getTessAPIInstance(Unknown Source) at net.sourceforge.tess4j.TessAPI.(Unknown Source) at net.sourceforge.tess4j .Tesseract.init(Unknown Source) at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source) at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source) at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source)在

我正在尝试将 tesseract.so 可执行文件打包到我的 JAR 中。我在这里看到了这个例子:http: //tess4j.sourceforge.net/tutorial/它似乎暗示我可以把它放在我的构建路径中。任何帮助,将不胜感激。我已经尝试针对 32 位和 64 位 JRE 构建它。

0 投票
1 回答
937 浏览

java - tess4j for linux UnsatisfiedLinkError

我正在使用 tess4J api 来处理 ocr 过程。我已经在 Windows 上成功部署了我的项目,但我被困在 linux ubunutu 上运行该项目。根据我的研究,我必须为 linux 使用 .so 文件而不是 .dll 文件。我的简单代码片段看起来像 belove

我有用于 linux os 的 tessdata 文件夹并将其放入类路径中,并且有几个 .so 文件也将其放入文件夹中的类路径中。例如linux-x86v 文件夹。

我的 printstacktrace 如下..

请就如何在 linux 平台上运行 tess4j api 以及我们需要什么类型的文件来运行 tess4j api 或 .so 或 .dll 提出任何解决方案。我们将不胜感激。谢谢。

0 投票
1 回答
763 浏览

java - Linux 上的 Tesseract 使 Glassfish 崩溃

我们正在使用 Tess4J/Tesseract 在 web 应用程序上执行 OCR。在 Windows 上一切正常,但是当部署在 Linux 机器上时,程序崩溃,杀死 glassfish 进程并输出一个转储文件:hs_err_pidXXXXX.log.

tesseract 命令可以正常工作并将图像正确转换为文本。我们已经尝试了LC_NUMERIC解决方案,但仍然无法正常工作。

我们的 Tesseract java 代码是这样的

我们的规格

  • 正方体 3.02.02
  • 苔丝4J
  • CentOS 6.4
  • Java 1.7
  • 玻璃鱼 4.1

有没有人有什么建议?

0 投票
1 回答
3208 浏览

java - 使用 Tesseract (tess4j) 进行 OCR 图像预处理的下一步

我一直在尝试使用 Tesseract 来识别一系列图像中的一些数字,在寻求建议后,我做了一些改进。到目前为止,我已经尝试了以下步骤:

  • 以适当的阈值对图像进行二值化以挑选出数字
  • 将 Tesseract 限制为仅数字
  • 使用多种方法放大图像(getScaledInstance with Image.SCALE_SMOOTH, AffineTransform using AffineTransformOp.TYPE_BICUBIC)
  • 探索不同的 Tesseract 页面分割模式。目前使用模式 6。

这些数字在形状上都是相同的,并且完全对齐,尽管它们的边缘有些锯齿状。处理后的图像示例:

在此处输入图像描述 在此处输入图像描述

Tesseract 对这些没问题,但它经常混淆 8 与 3、6 与 5、9 与 5。

我一直在寻找一些不同的方法来平滑图像并尝试不同的比例,但我也想知道仅仅通过训练 Tesseract 的过程是否更有意义。只有 10 个可能的值总是几乎相同,看起来学习识别它们应该不会太难,但训练 Tesseract 似乎也很痛苦。

关于如何在这些图像上从 Tesseract 获得最后一点准确性的任何建议?

我正在使用 tess4j 和 Java,因此特别感谢 Java 特定的建议和库。虽然我愿意自己实现算法,但我不想重新发明轮子。

0 投票
1 回答
912 浏览

java - 使用 Tessseract / Java 的七段数字数据识别

我正在尝试使用tess4J从图像中识别七段数字文本。

我的输入在这里

在此处输入图像描述

我做了一些标准化如下

1] 图像裁剪

在此处输入图像描述

2 ] 将其转换为二进制

在此处输入图像描述

我希望从图像中删除锯齿状的文本边缘。我怎样才能做到这一点?

我尝试了来自 GitHub 的不同训练数据。但没有什么能如我所愿。

如何手动创建训练数据?.

我正在等待您的好建议,并在此先感谢您。. . .

0 投票
1 回答
548 浏览

tesseract - 单个 tess4j 实例的并发线程访问期间的 NPE

我正在使用 Tesseract 3.0.2 并使用 1.4.1 tess4j ..这不是以线程安全的方式工作,我得到了一个 NPE。我正在使用 Grizzly/Jesery/Spring。

... ..

……

……

0 投票
2 回答
1507 浏览

linux - Ubuntu Linux 上的 Tess4J,UnsatisfiedLinkError

我在 Tomcat+Ubuntu(Linux) 中使用 Tess4j 得到一个 UnsatisfiedLinkError

库是通过 apt-get install tesseract-ocr 安装的,Tess4j 版本是 2.0.0,一切似乎都可以在 MacOS/OracleJDK1.7(64 位)上运行,但不能在 Ubuntu/Linux/OracleJDK1.7(64 位)上运行

一些 stackoverflow-search 提供了有关错误版本或库不存在的线索,但库就在那里......

有解决方案或提示的人吗?