0

从 tika-app 调用 cTAKES 解析器时得到以下信息:

java -classpath $HOME/src/ctakes-config:${TIKA_HOME}/tika-app/target/tika-app-X.Y-SNAPSHOT.jar:${CTAKES_HOME}/desc:${CTAKES_HOME}/resources:${CTAKES_HOME}/lib/* org.apache.tika.cli.TikaCLI --config=$HOME/src/ctakes-config/tika-config.xml -m Vose-2013-American_Journal_of_Hematology.pdf

例外

异常 java.lang.NoSuchMethodError 的屏幕截图

在此处输入图像描述

线程“主”java.lang.NoSuchMethodError 中的异常:opennlp.tools.sentdetect.SentenceModel.getMaxentModel()Lopennlp/model/AbstractModel;

我已按照此链接中提到的步骤进行操作。我无法理解此错误的原因,因此无法解决此问题。

我也收到以下警告: 警告

2020 年 2 月 16 日 12:19:58 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem 警告:未加载 J2KImageReader。JPEG2000 文件将不会被处理。有关可选依赖项,请参阅https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io

2020 年 2 月 16 日 12:19:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem 警告:org.xerial 的 sqlite-jdbc 未加载。请在您的类路径中提供 jar 以解析 sqlite 文件。有关正确版本,请参阅 tika-parsers/pom.xml。

我曾尝试使用此链接中的答案来解决它,但这并没有太大帮助。我知道这些只是警告,希望不会导致错误,并且仅通过安装它来使用 tika

系统信息

  • 操作系统 ubuntu 16.04
  • JDK openJDK8.
  • Maven 3.3.9
  • 阿帕奇提卡 1.23
  • Apache cTAKES 3.2.2
4

2 回答 2

1

我已经解决了这个问题。它与 Apache OpenNLP 库的不兼容版本有关。Tika CTAKES 解析器被固定到 1.5.3,cTAKES 3.2.2 使用该版本,但 Tika 解析器已经演变为使用更新的版本。

修复是在类路径中引用较旧的 OpenNLP 1.5.3 jar。我在这里更新了 wiki:https ://cwiki.apache.org/confluence/display/TIKA/CTAKESParser

java -classpath $HOME/src/ctakes-config:${CTAKES_HOME}/lib/opennlp-tools-1.5.3.jar:${TIKA_HOME}/tika-app/target/tika-app-X.Y-SNAPSHOT.jar:${CTAKES_HOME}/desc:${CTAKES_HOME}/resources:${CTAKES_HOME}/lib/\* org.apache.tika.cli.TikaCLI \
--config=$HOME/src/ctakes-config/tika-config.xml \
-m Vose-2013-American_Journal_of_Hematology.pdf 
于 2020-03-18T22:49:43.473 回答
0

安装 Apache tika-1.10 后,我能够从 tika 应用程序调用 cTAKES 两个版本的 cTAKES 和 TIKA 都不兼容

于 2020-02-20T16:11:21.877 回答