问题标签 [tess4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
771 浏览

java - Java:将彩色图像转换为单色并保持文本可读

我正在做一个项目,我打算用它tesseract OCR从给定的图像中提取文本。当我提供单色图像时,T​​esseract 没有太大问题。

然而,彩色图像是完全不同的场景。我从中得到的大多是乱码。所以我想将图像转换为单色,然后将其传递给 Tesseract。不幸的是,我的转换努力没有产生任何令人满意的结果。

图像被转换为​​单色,但文本不知何故被搞砸了(想不出合适的词)。即使我无法正确阅读文本,我怎么能期望程序呢?

所以我面临的主要问题是,如何在Java中将彩色图像转换为单色,其中文本没有被拧(再次)。

我们的项目在Linux服务器上运行,所以如果有任何脚本或其他程序,我可以从Java调用并返回结果也是可以的。但我更喜欢Java。

这是我的代码:

两张图片:

在此处输入图像描述

转换后的图像:

在此处输入图像描述

这是我从 Tesseract 得到的上面的内容:

因此,关于如何即兴阅读彩色图像的任何建议。谢谢你。

0 投票
1 回答
866 浏览

java - Netbeans 上的 Tess4j

再会,

我使用 Tess4j 作为 java 的包装器来实现 Tesseract OCR。

密切关注提供的教程和指南,但在编译以扫描示例图像时返回以下错误:

我已经将必要的库以及 libtesseract304.dll 和 gsdll64.dll 添加到项目中。

请参考我下面的结构: 在此处输入图像描述

谢谢你。

0 投票
4 回答
4117 浏览

java - 使用 tesseract /tess4j OCR 的文本嵌入图像方向检测

我有一个项目来查找文本嵌入图像的旋转角度,并且我正在使用 Tess4j,所以我怎样才能获得正确的图像方向角度 Tess4j 中是否有任何选项可以以正确的方向旋转图像...

如果我将图像作为输入,那么输出应该是正确的定向图像...第一个图像作为输入,然后输出 2n 个图像,那么我该怎么做...。请帮助我 输入图像所需的 输出图像

0 投票
0 回答
351 浏览

java - Tess4j api 无法准确读取 pdf 文件

我即将在 java 中使用 tess4j 读取 pdf 文件,它运行良好,但不幸的是,在我的 pdf 中,所有内容都是表格格式,并且 tess4j 正在读取所有行,除了以下两行是Currency ZAR 和 Amount 4.00,我不知道是什么原因。下面是我缺少 CURRENCY 和 AMOUNT 行的表。

值日 (DDMMYY) 14 年 12 月 21 日

货币 ZAR

金额 1.88

订购机构 NEDBANK LIMITED NEDSZAJJ

汇丰银行
HSBCBB22

评论 RBCD

你能帮我解决这个问题吗

您可以在此处找到示例 PDF MT210_changed_123.pdf

0 投票
1 回答
462 浏览

java - 如何使用 Tess4J 对包含欧元符号的图像执行 OCR?

我有以下要 OCR 的图像:

在此处输入图像描述

我为此使用Tess4J并按照这些说明进行操作。

这就是我正在尝试的:

当我在 IntelliJ 中运行它时,控制台返回以下内容:

我可以尝试什么来解决这个问题?

更新:

当我在下面的图像上进行 OCR 时,它确实有效

文本 没有欧元符号的数字

欧元符号一定是原因。我尝试将其添加到白名单但没有成功

0 投票
2 回答
1021 浏览

java - Tess4j OcrEngineMode CUBE ONLY:无效的内存访问

我想要扫描图像(tif 图像)来获得一个数字。当 Tess4J 设置为默认引擎时,它经常将 6 与 5 混淆,0 与 9 混淆......我想尝试使用 CUBE ONLY 引擎。

这是我的配置文件:

这是我的 Java 代码

这是完整的错误信息

我正在使用eclipse,maven项目:

0 投票
0 回答
285 浏览

java - 使用 tess4j 时 TessAPI1 出现 UnsatisfiedLinkError

我在 Mac OS 上工作,使用 tesseract 进行 OCR。

我用自制软件安装了 tesseract。

tesseract 与命令行很好地配合,java 程序与 Tesseract.getInstance() 的基本示例配合得很好。

但由于我想获得每个字符的置信度值,我切换到使用 TessAPI1 并出现以下错误:

错误发生在

代码如下所示:

我从其他一些问题中找到了这段代码,我想我需要的是获取和“迭代器”,然后我可以一个一个地获取具有置信度值的角色。

0 投票
1 回答
655 浏览

java - 无法构建测试项目(tess4j)tesseract 应用程序

我已将 tess4j 测试应用程序配置为http://tess4j.sourceforge.net/tutorial/
但是当我运行项目时,它给出了这个错误:

我找不到任何与 tesseract 相关的评论,如果有人在这个项目中做过,请帮忙。

这是我正在使用的示例代码:

0 投票
1 回答
12494 浏览

java - Tessj4 - 打开数据文件时出错 ./tessdata/eng.traineddata

我在 Tomcat 9 的 Web 应用程序中遇到了这个问题:

打开数据文件时出错 ./tessdata/eng.traineddata 请确保将 TESSDATAPREFIX 环境变量设置为“tessdata”目录的父目录。加载语言 'eng' 失败 Tesseract 无法加载任何语言!

我从 Tess4J 3.0.4 zip 创建文件夹 C:\Tess4J,其中包含子文件夹:

  • 距离
    • tess4j-3.0.jar
    • 图书馆
  • NB项目
  • 源代码
  • 苔丝数据
    • 下载带有语言的 ZIP 并在此处提取
  • 测试

在 catalina.properties 我添加:

  • C:/Tess4J/dist/tess4j-3.0.jar,C:/Tess4J/lib

在环境中,我尝试同时添加两者,但不起作用:

  • TESSDATA_PREFIX --> C:/Tess4J
  • TESSDATA_PREFIX --> C:/Tess4J/tessdata

然后我调用我的 servlet whit doOCR 方法,我得到了错误。

你能帮帮我吗?

0 投票
2 回答
6924 浏览

java - Tesseract For Java 为可执行 jar 设置 Tessdata_Prefix

这个项目的最终目标是把jar放到一个使用tesseract的目录中,并输出一个结果目录和输出txt文件。不过,我在使用 tesseract 时遇到了一些问题。我正在使用 Maven 在 Java 中使用 tess4j,我想将我的代码变成一个可执行的 jar。该项目作为桌面应用程序运行良好,但每当我尝试使用java -jar fileName.jar(导出到 jar 后)运行时,它都会给我错误

我在网上看了看,并没有真正找到如何为 jar 设置 tesseract 并获得正确的路径。现在我使用 maven 并在我的 pom 文件(tess4j -v 3.0)中有 Tesseract 依赖项,并且我的项目中有 tessdata。

我对 maven 和 jar 文件相当陌生,以前从未使用过 tesseract,但据我所知,我从互联网上可以正确设置它。

有谁知道如何使 tess4j 指向我项目中的 tessdata 目录并具有动态路径,以便我可以在多台计算机和多个地方移动使用它?

这就是我所说的 Tesseract

编辑

这就是我尝试在我的代码中设置环境变量 TESSDATA_PREFIX 的方式

但这没有明显的效果。我仍然遇到同样的错误

编辑 2

根据错误消息我需要将它设置为tessdata的父目录,我也试过这个无济于事

编辑 3

经过大量搜索并尝试修复它,我不确定它是否可能。tesseract 中的 doOcr 方法接收一个缓冲的图像或文件,如果我的图像不是动态的,这会很好,所以我不能真正将它们存储在 jar 中。更不用说 TESSDATA_PREFIX 仍然不会设置的事实。如果有人有任何想法,我仍然会全力以赴,我会继续寻找解决方案,但我不确定它是否会起作用