问题标签 [tess4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java:将彩色图像转换为单色并保持文本可读
我正在做一个项目,我打算用它tesseract OCR
从给定的图像中提取文本。当我提供单色图像时,Tesseract 没有太大问题。
然而,彩色图像是完全不同的场景。我从中得到的大多是乱码。所以我想将图像转换为单色,然后将其传递给 Tesseract。不幸的是,我的转换努力没有产生任何令人满意的结果。
图像被转换为单色,但文本不知何故被搞砸了(想不出合适的词)。即使我无法正确阅读文本,我怎么能期望程序呢?
所以我面临的主要问题是,如何在Java中将彩色图像转换为单色,其中文本没有被拧(再次)。
我们的项目在Linux服务器上运行,所以如果有任何脚本或其他程序,我可以从Java调用并返回结果也是可以的。但我更喜欢Java。
这是我的代码:
两张图片:
转换后的图像:
这是我从 Tesseract 得到的上面的内容:
因此,关于如何即兴阅读彩色图像的任何建议。谢谢你。
java - Tess4j api 无法准确读取 pdf 文件
我即将在 java 中使用 tess4j 读取 pdf 文件,它运行良好,但不幸的是,在我的 pdf 中,所有内容都是表格格式,并且 tess4j 正在读取所有行,除了以下两行是Currency ZAR 和 Amount 4.00,我不知道是什么原因。下面是我缺少 CURRENCY 和 AMOUNT 行的表。
值日 (DDMMYY) 14 年 12 月 21 日
货币 ZAR
金额 1.88
订购机构 NEDBANK LIMITED NEDSZAJJ
汇丰银行
HSBCBB22
评论 RBCD
你能帮我解决这个问题吗
您可以在此处找到示例 PDF MT210_changed_123.pdf。
java - Tess4j OcrEngineMode CUBE ONLY:无效的内存访问
我想要扫描图像(tif 图像)来获得一个数字。当 Tess4J 设置为默认引擎时,它经常将 6 与 5 混淆,0 与 9 混淆......我想尝试使用 CUBE ONLY 引擎。
这是我的配置文件:
这是我的 Java 代码
这是完整的错误信息
我正在使用eclipse,maven项目:
java - 使用 tess4j 时 TessAPI1 出现 UnsatisfiedLinkError
我在 Mac OS 上工作,使用 tesseract 进行 OCR。
我用自制软件安装了 tesseract。
tesseract 与命令行很好地配合,java 程序与 Tesseract.getInstance() 的基本示例配合得很好。
但由于我想获得每个字符的置信度值,我切换到使用 TessAPI1 并出现以下错误:
错误发生在
代码如下所示:
我从其他一些问题中找到了这段代码,我想我需要的是获取和“迭代器”,然后我可以一个一个地获取具有置信度值的角色。
java - 无法构建测试项目(tess4j)tesseract 应用程序
我已将 tess4j 测试应用程序配置为http://tess4j.sourceforge.net/tutorial/。
但是当我运行项目时,它给出了这个错误:
我找不到任何与 tesseract 相关的评论,如果有人在这个项目中做过,请帮忙。
这是我正在使用的示例代码:
java - Tessj4 - 打开数据文件时出错 ./tessdata/eng.traineddata
我在 Tomcat 9 的 Web 应用程序中遇到了这个问题:
打开数据文件时出错 ./tessdata/eng.traineddata 请确保将 TESSDATAPREFIX 环境变量设置为“tessdata”目录的父目录。加载语言 'eng' 失败 Tesseract 无法加载任何语言!
我从 Tess4J 3.0.4 zip 创建文件夹 C:\Tess4J,其中包含子文件夹:
- 距离
- tess4j-3.0.jar
- 库
- 图书馆
- NB项目
- 源代码
- 苔丝数据
- 下载带有语言的 ZIP 并在此处提取
- 测试
在 catalina.properties 我添加:
- C:/Tess4J/dist/tess4j-3.0.jar,C:/Tess4J/lib
在环境中,我尝试同时添加两者,但不起作用:
- TESSDATA_PREFIX --> C:/Tess4J
- TESSDATA_PREFIX --> C:/Tess4J/tessdata
然后我调用我的 servlet whit doOCR 方法,我得到了错误。
你能帮帮我吗?
java - Tesseract For Java 为可执行 jar 设置 Tessdata_Prefix
这个项目的最终目标是把jar放到一个使用tesseract的目录中,并输出一个结果目录和输出txt文件。不过,我在使用 tesseract 时遇到了一些问题。我正在使用 Maven 在 Java 中使用 tess4j,我想将我的代码变成一个可执行的 jar。该项目作为桌面应用程序运行良好,但每当我尝试使用java -jar fileName.jar
(导出到 jar 后)运行时,它都会给我错误
我在网上看了看,并没有真正找到如何为 jar 设置 tesseract 并获得正确的路径。现在我使用 maven 并在我的 pom 文件(tess4j -v 3.0)中有 Tesseract 依赖项,并且我的项目中有 tessdata。
我对 maven 和 jar 文件相当陌生,以前从未使用过 tesseract,但据我所知,我从互联网上可以正确设置它。
有谁知道如何使 tess4j 指向我项目中的 tessdata 目录并具有动态路径,以便我可以在多台计算机和多个地方移动使用它?
这就是我所说的 Tesseract
编辑
这就是我尝试在我的代码中设置环境变量 TESSDATA_PREFIX 的方式
但这没有明显的效果。我仍然遇到同样的错误
编辑 2
根据错误消息我需要将它设置为tessdata的父目录,我也试过这个无济于事
编辑 3
经过大量搜索并尝试修复它,我不确定它是否可能。tesseract 中的 doOcr 方法接收一个缓冲的图像或文件,如果我的图像不是动态的,这会很好,所以我不能真正将它们存储在 jar 中。更不用说 TESSDATA_PREFIX 仍然不会设置的事实。如果有人有任何想法,我仍然会全力以赴,我会继续寻找解决方案,但我不确定它是否会起作用