我在 Eclipse Juno SR1 和 JRE 1.7.0_25 上运行 Nutch 2.2.1
PARSE 步骤因以下错误而失败:
2013-08-15 19:35:26,555 ERROR tika.TikaParser - Can't retrieve Tika parser for mime-type application/pdf
2013-08-15 19:35:26,557 WARN parse.ParseUtil - Unable to successfully parse content
这个错误似乎来自 TikaConfig.java,因为我得到了一个空的迭代器:
Iterator<Parser> iterator = ServiceRegistry.lookupProviders(
Parser.class, this.getClass().getClassLoader());
来自 CYGWIN 的相同 PARSE 调用成功,我从服务注册表中获取了所有 PARSERS。所以也许解决方案是与服务注册表相关的 Eclipse 配置。
Nutch-Eclipse 对 nutch-site.xml、parse-plugins.xml 进行了很好的配置
我很感激任何解决这个问题的想法。