我想Tika
用来提取一些文件格式的文本,比如.doc
,.ppt
等等。
目前我依赖于tika-app-1.2.jar
,但我认为依赖于这个 jar 并不是一个好主意,因为这个 jar 是可运行的。此外,在解析.ppt
文件时,它给了我这个运行时异常:
org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.microsoft.OfficeParser@5de82b72
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120)
...
我对这个问题进行了深入的谷歌搜索,发现这个问题是由apache-poi
嵌入在tika-app
.
我的问题是我必须依赖哪些罐子里的提卡?
- 蒂卡
- 蒂卡核心
- tika 捆绑
- tika-父母
- tika-app