nutch - nutch如何获取爬取的页面内容和对应的URL？

Question

我想通过文本文件中的 nutch 获取爬取的内容。我使用了#readseg commads，但输出没有结果。

是否有一些插件可以让 nutch 抓取并将 url 和内容存储在文本文件中。

score 2 · Accepted Answer

使用 nutch 1，您可以执行以下操作：

./bin/nutch readseg -get out-crawl/segments/20160823085007/  "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html

它仍然带有几行可以在文件开头删除。

score 1 · Accepted Answer

您可以修改Nutch的Fetch Job来获取URL，并且页面内容在爬取过程中属于该URL。在源代码文件（src/java/org/apache/nutch/fetcher/FetcherReducer.java）中：

      case ProtocolStatusCodes.SUCCESS:        // got a page
          String URL= TableUtil.reverseUrl(fit.url); //URL
          content = Bytes.toString(ByteBuffer.wrap((content.getContent()))));//URL belong the URL
          output(fit, content, status, CrawlStatus.STATUS_FETCHED);
          break;

希望这可以帮助，

乐国岛

nutch - nutch如何获取爬取的页面内容和对应的URL？

2 回答 2

Related

Reference