solr - 倾倒 Nutch Crawldb

Question

如何获取状态为 3 (db_gone) 的所有 url 的 Nutch crawldb 转储。我使用的 Nutch 版本是 1.4。

我查看了 wiki，但不清楚如何执行此操作

score 2 · Accepted Answer

Nutch 1.4 中的 CrawlDbReader 不会根据 Document 的状态生成 crawldb 的转储。在 Nutch 1.5 及更高版本中，您可以在 crawldb 读取期间指定文档的状态，readdb 将生成具有指定状态的文档的转储。

[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone

如果你想在 Nutch 1.4 中做同样的事情，你必须修改org.apache.nutch.crawl.CrawlDbReader类。

1 回答 1