问题标签 [tess4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
297 浏览

java - 在 java 中使用 tesseract 时面临设置数据路径错误

我正在使用 tesseract 识别 pdf 中的文本,但我遇到了一些奇怪的错误。错误是 Error opening data file data/tessdata/eng.traineddata 请确保将 TESSDATA_PREFIX 环境变量设置为“tessdata”目录的父目录。

现在,我理解了这个错误的含义,并且我的路径已更新到数据文件夹的父目录。但奇怪的是,当我运行我的代码时,我并没有立即得到这个错误,而是在识别 10-15 个 pdf(每个大约 40 页)后得到它。在我收到此错误并从程序之前停止的 pdf 再次运行我的程序后,我在另外 10-15 个 pdf 读数中没有收到任何错误。

现在这很奇怪,我不明白这背后的原因。如果有人遇到过这种情况或知道这背后的原因,请发表评论。

这是我用来识别 pdf 特定页面中的文本的功能。我为每个 pdf 的每一页调用这个函数。

如果有人发现任何异常情况,请回复。

0 投票
1 回答
1516 浏览

tesseract - Tess4j Tesseract vs Tesseract1

I am not 100% sure the difference about Tesseract and Tesseract1 object in the Java api package Tess4J, anyone can explain about it?

I know Tesseract uses interface mapping, and Tesseract1 uses direct mapping. How this will change their behavior?

Thanks in advance!

0 投票
0 回答
331 浏览

java - 以编程方式预处理图片以解析为 OCR

我有一张图像,我在我设置为使用 tesseract 的 ocr 识别的区域上进行裁剪。经过所有图像处理后的结果是这样的 处理前的图像

当给这张图片做ocr时,结果不准确

图像 7_B7.bmp = W' I WTH 3795' _/ 7777777777” f ' .1.” 我们)?1

我想要做的是使图像成为这样(在油漆中编辑) 预处理的预期结果

以便识别后给出更准确的结果。我该怎么做才能得到这样的图像?

0 投票
1 回答
793 浏览

tesseract - 我在 java 中的 tess4j 出现错误“加载语言 'osd' 失败”

当我运行代码时,出现2个错误:

加载语言“osd”失败

Tesseract 无法加载任何语言!

我不知道 tess4j 如何找到可以使用的任何语言

当我在 iterm 中运行“tesseract --list-langs”时

结果是“eng osd”

我认为 tesseract 工作得很好,但为什么 tess4j 不工作

我已经设置了 TESSDATA_PREFIX 环境变量

echo $TESSDATA_PREFIX
输出:/Users/qwf/tessdata/3.04.01_1/

我通过自制软件安装 tessdata

0 投票
1 回答
5227 浏览

java - 没有输入源设置错误异常Tess4J

我刚刚从http://tess4j.sourceforge.net/下载了 Tess4J并将其导入 netbeans。代码正在运行,但是当我输入图像的 URL 并尝试对其进行转换时,出现错误。

我的代码:

输出错误:

其他人以前经历过这样的事情吗?我在 stackoverflow 上发现了 3 个类似的主题,但它们对我没有帮助..

0 投票
1 回答
240 浏览

java - Tess4j and NetBeans Java Programm - Problems "AWT-Eventqueue-0" unsatisfied-link-error

I have programmed a small tool that takes an image and uses tesseract to extract data from it. I have used Java in Netbeans on a 64bit Windows 7 machine. So far, the programm compiles perfectly fine and does what I want - including tesseract -. But when I try to clean & build the finished project in Netbeans and try to run the generated .jar in the .cmd

I get the following error:

So far I can narrow the problem down to this line in my code:

I have checked the "file" given to the OCR. It is a perfectly in tact .tif-image (as it works inside the Netbeans fine anyways). Another thing I thought that could be the problem that the .jar can't find the for tesseract necessary .dlls. So have copied the necessary .dlls into the "dist"-folder. With no success either. I have inbound the tess4j-1.3.0.jar into my project's library.

It is quite strange that everything runs perfectly fine inside of NetBeans. I think I miss a link to a library but I can't think of any.

That is all I can think of to provide you with. Thanks in advance!

0 投票
1 回答
1943 浏览

java - 如何将 Tess4j 与 IntelliJ 一起使用?

我想用java做OCR,我用IntelliJ。但我不知道我的项目需要什么文件。

我的代码只是一个简单的 OCR:

0 投票
1 回答
4210 浏览

java - java.lang.NoClassDefFoundError: net/sourceforge/tess4j/TesseractException

我尝试用 Java 和 Tesseract 为 Mirth 做一个 ocr 应用程序。我将项目导出到 jar 文件中,并用 Javascript 调用 Mirth,它做了一个 hello world 应用程序。我相信我以正确的方式添加 jar 文件。但是我有一个问题在 Java OCR 中,所以我得到了这个错误,

错误 (com.mirth.connect.connectors.js.JavaScriptDispatcher:193):评估 JavaScript 编写器时出错(通道 b469e5af-a78d-41ca-86a0-a7b507799a4d 上的 JavaScript 编写器“RTF>DCM”)。java.lang.NoClassDefFoundError: net/sourceforge/tess4j/TesseractException

项目截图

非常感谢您的帮助。

0 投票
1 回答
496 浏览

java - Apache服务器中的Tesseract:该进程无法访问该文件,因为它正在被另一个进程使用

我在我的 JSF Web 应用程序中使用 Tesseract。

当我熟悉 Tesseract API 作为一个简单的 java 项目时,它可以毫无问题地工作,然后一旦我将它集成到我使用 apache tomcat 7 服务器的 web 项目中,我就会得到以下异常:

这是我的调用方法:

正如您在此屏幕截图中看到的那样,存在 dll,并且我的 Web 应用程序是唯一使用 tesseract 的应用程序,所以我真的不知道哪个进程正在使用这些库......请有任何想法!

0 投票
2 回答
1641 浏览

java - java.lang.IllegalAccessError:试图访问方法 net.sourceforge.tess4j.Tesseract。()V 来自类 Tess4jTest.TestTess

我做了一个Java OCR项目TesseractMirth当我从 Mirth 运行 jar 文件时,我得到了这个错误。当我搜索它时,我发现有一个 init() 方法,它也是 Tesseract.java 中的一个受保护的 void。我认为这可能是导致该错误的原因。我该怎么办?非常感谢您的帮助。