0

我将 nutch-2.3.1 与 Hbase-0.98.8-hadoop2 一起使用,并且对于 HTML 页面的爬网运行良好,但是当尝试对 PDF URL 运行爬网时,只有其中一些似乎解析了它们中的大多数没有爬网到 solr . 我尝试对 URL 使用 parsechecker,它工作正常。但是,在抓取 PDF 时,它并不仅仅是解析。获取步骤也工作正常。在这种情况下我可以检查什么

4

0 回答 0