1

我想Tika用来提取一些文件格式的文本,比如.doc.ppt等等。
目前我依赖于tika-app-1.2.jar,但我认为依赖于这个 jar 并不是一个好主意,因为这个 jar 是可运行的。此外,在解析.ppt文件时,它给了我这个运行时异常:

org.apache.tika.exception.TikaException: Unexpected RuntimeException from  org.apache.tika.parser.microsoft.OfficeParser@5de82b72
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242)
    at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120)
    ...

我对这个问题进行了深入的谷歌搜索,发现这个问题是由apache-poi嵌入在tika-app.

我的问题是我必须依赖哪些罐子里的提卡?

  • 蒂卡
  • 蒂卡核心
  • tika 捆绑
  • tika-父母
  • tika-app
4

1 回答 1

3

http://tika.apache.org/1.3/gettingstarted.html

我认为您想要 tika-parsers 依赖项。来自 Tika 网站。

如果您想使用 Tika 解析文档(而不是简单地检测文档类型等),您将需要依赖 tika-parsers:

<dependency>
  <groupId>org.apache.tika</groupId>
  <artifactId>tika-parsers</artifactId>
  <version>1.3</version>
</dependency>

附带说明一下,如果没有先查阅该项目的文档,我绝不会尝试直接从 Maven 中心获取依赖项。正如您在 Tika 中看到的那样,打破依赖关系是 IMO 的新标准方法,而不是提供一个单一的整体 jar,以便包括这些项目的人们在包含依赖项时可以更精细地控制他们在自己的项目中引入的内容.

于 2013-04-21T15:17:36.193 回答