我正在使用 Tess4J(围绕 tesseract 的 JNA 包装器),并尝试tess.doOCR(myFile)
从单页 PDF 调用 OCR 文本。
我安装了 GhostScript(通过使用yum install ghostscript
),gs -h
工作正常。
我的应用程序服务器正在使用64-bit JVM
,我有gsdll64.dll
,和 64 位 tesseract dllliblept168.dll
和libtesseract302.dll
在类路径中。
tess.doOCR(myFile)
调用时,将记录以下内容:
GPL Ghostscript 8.70 (2014-09-22)
Copyright (C) 2014 Artifex Software, Inc. All rights reserved.
This software comes with NO WARRANTY: see the file PUBLIC for details.
Processing pages 1 through 1.
Page 1
但它只是停在那里。该程序不再进行。
更新 -
看起来真正的问题来自这个错误:
java.lang.UnsatisfiedLinkError: Unable to load library 'tesseract': Native library (linux-x86-64/libtesseract.so) not found in resource path
环顾四周后,我没有找到一个方便的地方来找到这个libtesseract.so
文件,而且我不确定如何将这个文件放到我的 Linux 应用服务器上。我读到也许我需要下载一些 C++ 运行时,但我没有看到 Linux 下载。任何建议将不胜感激。
还是这与符号链接有关?