nutch2 - Nutch 问题：使用 nutch 抓取 PDF 时，PDF 正确获取但无法解析

翻译自：https://stackoverflow.com/questions/69116483 2021-09-09T10:23:05.923

16 次

我将 nutch-2.3.1 与 Hbase-0.98.8-hadoop2 一起使用，并且对于 HTML 页面的爬网运行良好，但是当尝试对 PDF URL 运行爬网时，只有其中一些似乎解析了它们中的大多数没有爬网到 solr . 我尝试对 URL 使用 parsechecker，它工作正常。但是，在抓取 PDF 时，它并不仅仅是解析。获取步骤也工作正常。在这种情况下我可以检查什么

nutch2 - Nutch 问题：使用 nutch 抓取 PDF 时，PDF 正确获取但无法解析

0 回答 0

Related

Reference