parsing - 如何使用 Nutch 1.6 抓取 PDF 文档？

Question

我正在使用 Apache-nutch 1.6，我的要求是将 PDF 文档作为 .pdf 文件本身进行爬网，但我无法将 pdf 文件作为文本本身进行爬网。在我的 nutch-site.xml 中，我只给出了 http.agent.name,http.robots.name,http.proxy.host ......我应该添加什么......在我的插件中我只有 parse-tika , 有什么要补充的...如果有的话建议我链接...

我可以抓取 .html 但对于 .pdf 文件没有解析文本....

错误：parse.ParseUtil - 无法成功解析应用程序/pdf 类型的内容http://nutch.apache.orgmailing_lists.pdf parse.ParseSegment - 解析错误：http: //nutch.apache.org/mailing_lists.pdf：失败（ 2,200): org.apache.nutch.parse.ParseException: 无法成功解析内容

提前致谢....

score 2 · Accepted Answer

据我所知...检查 pdpage.class（此类的路径：pdfbox-app-1.8.2/org/apache/pdfbox/pdmodel/PDPage.class）是否包含您的 pdfbox。这是您的问题所必需的。

parsing - 如何使用 Nutch 1.6 抓取 PDF 文档？

1 回答 1

Related

Reference