0

我在 Eclipse Juno SR1 和 JRE 1.7.0_25 上运行 Nutch 2.2.1

PARSE 步骤因以下错误而失败:

2013-08-15 19:35:26,555 ERROR tika.TikaParser - Can't retrieve Tika parser for mime-type application/pdf
2013-08-15 19:35:26,557 WARN  parse.ParseUtil - Unable to successfully parse content

这个错误似乎来自 TikaConfig.java,因为我得到了一个空的迭代器:

Iterator<Parser> iterator = ServiceRegistry.lookupProviders(
    Parser.class, this.getClass().getClassLoader());

来自 CYGWIN 的相同 PARSE 调用成功,我从服务注册表中获取了所有 PARSERS。所以也许解决方案是与服务注册表相关的 Eclipse 配置。

Nutch-Eclipse 对 nutch-site.xml、parse-plugins.xml 进行了很好的配置

我很感激任何解决这个问题的想法。

4

1 回答 1

0

查看此线程,似乎他遇到了类似的问题并解决了:

http://lucene.472066.n3.nabble.com/Nutch-2-x-Eclipse-Can-t-retrieve-Tika-parser-for-mime-type-application-pdf-td4015896.html

于 2013-08-19T13:05:13.370 回答