11

创建了一个使用 Tesseract 的 Java 应用程序,以便将给定的图像或 pdf 转换为字符串格式,当在我的机器上使用 junit 作为单元测试运行它时,它运行良好,但是在运行完整系统时,它是由 tomcat 运行的 restFul API接收图像并运行 Tesseract 它给了我以下错误:

23:22:36.511 [http-nio-9999-exec-3] 错误 net.sourceforge.tess4j.Tesseract - null java.lang.NullPointerException: null at net.sourceforge.tess4j.util.PdfUtilities.convertPdf2Png(PdfUtilities.java: 107) 在 net.sourceforge.tess4j.util.ImageIOHelper.getIIOImageList(ImageIOHelper.java:343) 在 net.sourceforge.tess4j.Tesseract.doOCR 的 net.sourceforge.tess4j.util.PdfUtilities.convertPdf2Tiff(PdfUtilities.java:48) (Tesseract.java:213) 在 net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:197) 在 ocr.OcrUtil.getString(OcrUtil.java:54) 在 com.tapd.server.api.handlers.IRSHandler。在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl 在 com.tapd.server.api.WebAPIService.updateParentIrsForm(WebAPIService.java:250) 上传 IRSImage(IRSHandler.java:65)。在 org.glassfish.jersey.server.model.internal.ResourceMethodInvocationHandlerFactory$1.invoke(ResourceMethodInvocationHandlerFactory) 的 sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) 调用(Unknown Source) .java:81) 在 org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher$1.run(AbstractJavaResourceMethodDispatcher.java:144) 在 org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher.invoke(AbstractJavaResourceMethodDispatcher.java: 161)在 org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher 的 org.glassfish.jersey.server.model.internal.JavaResourceMethodDispatcherProvider$ResponseOutInvoker.doDispatch(JavaResourceMethodDispatcherProvider.java:160)。dispatch(AbstractJavaResourceMethodDispatcher.java:99) at org.glassfish.jersey.server.model.ResourceMethodInvoker.invoke(ResourceMethodInvoker.java:389) at org.glassfish.jersey.server.model.ResourceMethodInvoker.apply(ResourceMethodInvoker.java:347)在 org.glassfish.jersey.server.model.ResourceMethodInvoker.apply(ResourceMethodInvoker.java:102) 在 org.glassfish.jersey.server.ServerRuntime$2.run(ServerRuntime.java:309) 在 org.glassfish.jersey.internal。 Errors$1.call(Errors.java:271) at org.glassfish.jersey.internal.Errors$1.call(Errors.java:267) at org.glassfish.jersey.internal.Errors.process(Errors.java:315)在 org.glassfish.jersey.internal.Errors.process(Errors.java:297) 在 org.glassfish.jersey.internal.Errors.process(Errors.java:267) 在 org.glassfish.jersey.process.internal.RequestScope .runInScope(RequestScope.java:317) 在 org.glassfish.jersey.server.ServerRuntime.process(ServerRuntime.java:292) 在 org.glassfish.jersey.server.ApplicationHandler.handle(ApplicationHandler.java:1139) 在 org.glassfish .jersey.servlet.WebComponent.service(WebComponent.java:460) 在 org.glassfish.jersey.servlet.ServletContainer.service(ServletContainer.java:386) 在 org.glassfish.jersey.servlet.ServletContainer.service(ServletContainer.java :334) 在 org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:230) 在 org.apache.catalina.core 的 org.glassfish.jersey.servlet.ServletContainer.service(ServletContainer.java:221)。 ApplicationFilterChain.doFilter(ApplicationFilterChain.java:165) 在 org.apache.tomcat.websocket.server.WsFilter.doFilter(WsFilter.java:52) 在 org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:192) 在 org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:165) 在 org.apache.catalina.core.StandardWrapperValve .invoke(StandardWrapperValve.java:198) 在 org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:108) 在 org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:522) 在 org. apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:140) at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:79) at org.apache.catalina.valves.AbstractAccessLogValve.invoke(AbstractAccessLogValve. java:620) 在 org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:87)在 org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:349) 在 org.apache.coyote.http11.Http11Processor.service(Http11Processor.java:1110) 在 org.apache.coyote.AbstractProcessorLight.process (AbstractProcessorLight.java:66) 在 org.apache.coyote.AbstractProtocol$ConnectionHandler.process(AbstractProtocol.java:785) 在 org.apache.tomcat.util.net.NioEndpoint$SocketProcessor.doRun(NioEndpoint.java:1425) 在org.apache.tomcat.util.net.SocketProcessorBase.run(SocketProcessorBase.java:49) at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source) at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)在 org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61) 在 java.lang.Thread.run(Unknown Source) [2016-09-14 23:22:36,512] [错误] java.lang.NullPointerException

我的猜测是 tessdata 文件夹不在正确的位置,当打包到 Jar 并由 tomcat 运行时,它放错了位置,但我不知道它应该放在哪里,我仔细检查了所有的 Jar部署正确。

编辑:所以当Tesseract在AWS S3等远程服务器上时,它似乎无法处理路径,所以问题是为什么?以及如何允许它使用来自 S3 的路径?(是的,文件是公开的)

4

3 回答 3

5

我的猜测是有没有正确记录的 GhostscriptException,这导致了 NullPointerException:

https://github.com/nguyenq/tess4j/blob/212d72bc2ec8b3a4d4f5a18f1eb01a0622fc5521/src/main/java/net/sourceforge/tess4j/util/PdfUtilities.java#L107

106        } catch (GhostscriptException e) {
107            logger.error(e.getCause().toString(), e);
108        } finally {

在第 107 行 - e.getCause()(可能)为 null,调用 null.toString() 会引发 NPE。

(从规范 - getCause 可以为空: https://docs.oracle.com/javase/7/docs/api/java/lang/Throwable.html#getCause(),GhostscriptException 也允许原因为空:http://grepcode.com/file/repo1.maven.org/maven2/org.ghost4j/ghost4j/1.0.0/org/ghost4j/GhostscriptException.java

要验证这个答案(无需重新编译整个 tess4j),您可以在调试模式下启动程序并在第 107 行放置一个断点。这将为您提供有关真正异常的信息。

于 2016-09-19T07:04:43.347 回答
2

正如@Piotr R 提到的错误是ghostscriptException.getCause() 为null,原因是发送到Tesseract 的文件对象中配置的路径不是有效路径,现在Tesseract 的有效定义有点不同你的,他认为只有一个本地地址是有效的,所以当设置一个位于 AWS S3 上的文件时,即使它是公共的,它也会抛出一个错误。解决方案是将其保存在本地并在 Tesseract 完成后将其删除。

于 2016-09-22T06:28:47.887 回答
0

我使用的资源:Windows 10(也在 Windows Server 2016 上试用过)、JAVA、MAVEN

状态:在我的本地和虚拟机上运行良好

  1. 从这里http://tess4j.sourceforge.net/下载 Tess4J-3.4.8 并在高级系统设置下设置您的 ENV 变量路径
  2. 从 MAVEN 获取回购 -
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.5.1</version>
</dependency>
<dependency>
<groupId>org.ghost4j</groupId>
<artifactId>ghost4j</artifactId>
<version>1.0.1</version>
</dependency>
<dependency>
<groupId>net.sourceforge.lept4j</groupId>
<artifactId>lept4j</artifactId>
<version>1.7.0</version>
</dependency>
  1. 获取 libtesseract302.dll 并从此处复制到“C:\Windows\System32”文件夹http://api.256file.com/libtesseract302.dll/en-download-56466.html 不要忘记在 Advance 下设置 ENV 变量路径系统设定

  2. 从这里下载并安装 Visual C++ 2015 Redistributable 或 VC++ 2017 Redistributable(我都安装了)https://programmer.help/blogs/net.sourceforge.tess4j.tesseractexception-java.lang.nullpointerexception.html

然后重启你的电脑

  1. 如果您在本地还没有 Jar 文件,则在更安全的一侧可以有一些 Jar 文件 - 请参阅图片

    不要忘记在高级系统设置下为 JAR 设置 ENV 变量路径

在此处输入图像描述

于 2020-04-12T19:31:41.447 回答