1

如何获取状态为 3 (db_gone) 的所有 url 的 Nutch crawldb 转储。我使用的 Nutch 版本是 1.4。

我查看了 wiki,但不清楚如何执行此操作

4

1 回答 1

2

Nutch 1.4 中的 CrawlDbReader 不会根据 Document 的状态生成 crawldb 的转储。在 Nutch 1.5 及更高版本中,您可以在 crawldb 读取期间指定文档的状态,readdb 将生成具有指定状态的文档的转储。

[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone

如果你想在 Nutch 1.4 中做同样的事情,你必须修改org.apache.nutch.crawl.CrawlDbReader类。

于 2013-08-27T12:10:59.570 回答